Spark AI 李智昊：用视频做世界模型，路线非常不本质

世界模型的核心瓶颈在于表征效率，而非单纯的数据规模或算力堆叠。当前基于视频的生成模型因将物理世界 “拍扁” 为二维投影，导致物理规律丢失及高延迟问题，难以支撑智能探索。作为 Spark 3D 的开发者，李智昊提出通过对 4D 物理空间进行点云建模，将场景拆分为静态表征与动态运动残差，以更紧凑的 token 实现高效压缩，从而精准还原物理规律。这种从底层表征出发的范式突破，不仅能显著提升游戏资产生成与机器人模拟的精度，更是通往物理智能的关键路径。随着表征技术的迭代，未来两年内有望实现类似 Stable Diffusion 在图像领域的突变，为多人交互游戏及物理智能应用带来革命性进展。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise

AI炼金术

压缩即智能：世界模型的发展逻辑与核心范式

视频生成模型的局限性与 4D 点云表征方案

Spark 3D 的技术突破与高精度资产生成

创业公司的差异化竞争与底层表征创新

世界模型的未来演进与 4D 智能的爆发时刻

Spark AI 李智昊：用视频做世界模型，路线非常不本质

AI炼金术

00:04压缩即智能：世界模型的发展逻辑与核心范式

压缩即智能：世界模型的发展逻辑与核心范式

06:07视频生成模型的局限性与 4D 点云表征方案

视频生成模型的局限性与 4D 点云表征方案

15:53Spark 3D 的技术突破与高精度资产生成

Spark 3D 的技术突破与高精度资产生成

24:02创业公司的差异化竞争与底层表征创新

创业公司的差异化竞争与底层表征创新

35:59世界模型的未来演进与 4D 智能的爆发时刻

世界模型的未来演进与 4D 智能的爆发时刻