本期 DeepTalk 播客聚焦视觉语言动作大模型(VLA)技术,探讨其在自动驾驶和机器人领域的应用前景。小米汽车的陈龙老师和上海交通大学的穆尧老师阐释了 VLA 如何通过结合视觉和语言理解,提升机器对复杂环境的泛化能力和推理能力,解决传统机器人和自动驾驶中长尾问题。讨论强调 VLA 不仅仅是增加语言模块,而是认知驱动范式的转变,利用大模型的知识和推理能力辅助决策。两位老师还探讨了数据飞轮效应在具身智能中的挑战,以及如何通过强化学习和安全冗余机制来保障 VLA 的安全性。此外,还讨论了世界模型和空间智能在 VLA 中的作用,以及如何解决 VLA 模型在执行过程中的延迟和遗忘问题,为智慧塑形,为机器助灵。
Sign in to continue reading, translating and more.
Continue