世界模型的核心瓶颈在于表征效率,而非单纯的数据规模或算力堆叠。当前基于视频的生成模型因将物理世界 “拍扁” 为二维投影,导致物理规律丢失及高延迟问题,难以支撑智能探索。作为 Spark 3D 的开发者,李智昊提出通过对 4D 物理空间进行点云建模,将场景拆分为静态表征与动态运动残差,以更紧凑的 token 实现高效压缩,从而精准还原物理规律。这种从底层表征出发的范式突破,不仅能显著提升游戏资产生成与机器人模拟的精度,更是通往物理智能的关键路径。随着表征技术的迭代,未来两年内有望实现类似 Stable Diffusion 在图像领域的突变,为多人交互游戏及物理智能应用带来革命性进展。
Outlines
Sign in to continue reading, translating and more.
Open full episode in Podwise