24 Jan 2026
1h 12m

十二个问题解剖 VLA,深度对话小米陈龙、上交穆尧

Podcast cover

DeepTalk

本期 DeepTalk 播客聚焦视觉语言动作大模型(VLA)技术,探讨其在自动驾驶和机器人领域的应用前景。小米汽车的陈龙老师和上海交通大学的穆尧老师阐释了 VLA 如何通过结合视觉和语言理解,提升机器对复杂环境的泛化能力和推理能力,解决传统机器人和自动驾驶中长尾问题。讨论强调 VLA 不仅仅是增加语言模块,而是认知驱动范式的转变,利用大模型的知识和推理能力辅助决策。两位老师还探讨了数据飞轮效应在具身智能中的挑战,以及如何通过强化学习和安全冗余机制来保障 VLA 的安全性。此外,还讨论了世界模型和空间智能在 VLA 中的作用,以及如何解决 VLA 模型在执行过程中的延迟和遗忘问题,为智慧塑形,为机器助灵。

Outlines

Part 1: 技术定义与背景

Part 2: 核心价值、泛化与长尾

Part 3: 认知驱动、范式转变

Part 4: 架构设计、端云协同

Part 5: 数据困境、飞轮效应

Part 6: 安全性、效率、技术难点

Part 7: 空间智能、争议与展望

Sign in to continue reading, translating and more.

Open full episode in Podwise