YouTube06 Apr 2025
2h 29m

98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

Podcast cover

Zhang Xiaojun Podcast

人形机器人正经历从专用走向通用的技术拐点。大语言模型与视觉语言模型的突破,推动了 VLA(视觉 - 语言 - 动作)架构的兴起,使机器人能够通过端到端模型实现感知、推理与行为决策的统一。这一范式摒弃了传统针对单一任务开发专用模型的低效路径,转而追求具备泛化能力的通用机器人大脑。通过引入多模态数据、强化学习以及对物理世界的预测能力,机器人不仅能处理复杂的长时序任务,还在工具使用与动态交互中展现出更强的适应性。随着模型架构的收敛与数据多样性的提升,通用机器人正加速从实验室走向产业化,预计五年内将实现更广泛的社会应用。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise