十二个问题解剖 VLA，深度对话小米陈龙、上交穆尧

本期 DeepTalk 播客聚焦视觉语言动作大模型（VLA）技术，探讨其在自动驾驶和机器人领域的应用前景。小米汽车的陈龙老师和上海交通大学的穆尧老师阐释了 VLA 如何通过结合视觉和语言理解，提升机器对复杂环境的泛化能力和推理能力，解决传统机器人和自动驾驶中长尾问题。讨论强调 VLA 不仅仅是增加语言模块，而是认知驱动范式的转变，利用大模型的知识和推理能力辅助决策。两位老师还探讨了数据飞轮效应在具身智能中的挑战，以及如何通过强化学习和安全冗余机制来保障 VLA 的安全性。此外，还讨论了世界模型和空间智能在 VLA 中的作用，以及如何解决 VLA 模型在执行过程中的延迟和遗忘问题，为智慧塑形，为机器助灵。

Outlines

Part 1: 技术定义与背景

Part 2: 核心价值、泛化与长尾

Part 3: 认知驱动、范式转变

Part 4: 架构设计、端云协同

Part 5: 数据困境、飞轮效应

Part 6: 安全性、效率、技术难点

Part 7: 空间智能、争议与展望

Sign in to continue reading, translating and more.

Open full episode in Podwise

DeepTalk

Part 1: 技术定义与背景

00:04DeepTalk 播客介绍：视觉语言动作大模型（VLA）技术

DeepTalk 播客介绍：视觉语言动作大模型（VLA）技术

00:59VLA 技术：利用大语言模型解决现实世界行为决策问题

VLA 技术：利用大语言模型解决现实世界行为决策问题

Part 2: 核心价值、泛化与长尾

03:29VLA 技术赋能机器人：提升泛化性和柔性能力

VLA 技术赋能机器人：提升泛化性和柔性能力

05:12传统机器人与具身智能：VLA 实现多任务开放场景

传统机器人与具身智能：VLA 实现多任务开放场景

06:32VLA 技术：机器人从工业走向生活场景的关键

VLA 技术：机器人从工业走向生活场景的关键

07:58自动驾驶技术演进：从模块化到端到端再到 VLA

自动驾驶技术演进：从模块化到端到端再到 VLA

12:24VLA 技术核心：基于理解解决长尾问题和泛化问题

VLA 技术核心：基于理解解决长尾问题和泛化问题

13:04机器人领域的长尾和泛化：背景、前景及任务相关物体

机器人领域的长尾和泛化：背景、前景及任务相关物体

16:22自动驾驶领域的长尾问题：施工场景和非结构化信号

自动驾驶领域的长尾问题：施工场景和非结构化信号

Part 3: 认知驱动、范式转变

18:16VLA 解决自动驾驶长序列问题：死胡同倒车

VLA 解决自动驾驶长序列问题：死胡同倒车

19:01VLA 技术：认知驱动范式转变，增强决策过程

VLA 技术：认知驱动范式转变，增强决策过程

22:00VLA 自动驾驶：思考过程与人脑相似，无需冗余文字描述

VLA 自动驾驶：思考过程与人脑相似，无需冗余文字描述

24:01机器人 VLA：任务拆解与语言的重要性

机器人 VLA：任务拆解与语言的重要性

Part 4: 架构设计、端云协同

27:16机器人大脑与本体：VLA 兼顾大脑能力，端云协同是主流

机器人大脑与本体：VLA 兼顾大脑能力，端云协同是主流

28:41自动驾驶与具身智能：共用底座模型与跨本体挑战

自动驾驶与具身智能：共用底座模型与跨本体挑战

30:36小米 MemoEmbodied：融合自驾与机器人数据，增强空间智能

小米 MemoEmbodied：融合自驾与机器人数据，增强空间智能

Part 5: 数据困境、飞轮效应

32:40数据飞轮：具身智能数据困境与自动驾驶优势

数据飞轮：具身智能数据困境与自动驾驶优势

34:27三元一体架构：解决具身智能数据问题

三元一体架构：解决具身智能数据问题

35:50VLA 泛化性：弥补具身智能数据缺失

VLA 泛化性：弥补具身智能数据缺失

37:55统一机座模型：不同环境下的能力调用

统一机座模型：不同环境下的能力调用

40:09数据融合：World Model 作为自驾与机器人交汇点

数据融合：World Model 作为自驾与机器人交汇点

Part 6: 安全性、效率、技术难点

42:18VLA 安全性：如何保证泛化能力与解决长尾问题

VLA 安全性：如何保证泛化能力与解决长尾问题

43:05强化学习：提升 VLA 安全性和操作精准度

强化学习：提升 VLA 安全性和操作精准度

44:17系统冗余：自动驾驶安全性的兜底策略

系统冗余：自动驾驶安全性的兜底策略

45:56VLA 技术：幻觉消除与安全措施

VLA 技术：幻觉消除与安全措施

47:28自动驾驶 VLA：范式转变与双系统结合

自动驾驶 VLA：范式转变与双系统结合

49:44机器人 VLA：异步推理与并行化

机器人 VLA：异步推理与并行化

52:02VLA 执行效率：模型轻量化与工程优化

VLA 执行效率：模型轻量化与工程优化

53:52思考链与执行过程：异步进行与 Transformer 遗忘问题

思考链与执行过程：异步进行与 Transformer 遗忘问题

54:51VLA 训练与推理：通用能力与 Context 压缩

VLA 训练与推理：通用能力与 Context 压缩

57:39机器人领域：Neural 与显性总结解决遗忘问题

机器人领域：Neural 与显性总结解决遗忘问题

59:33机器人执行：关注当前任务，知识藏在权重中

机器人执行：关注当前任务，知识藏在权重中

Part 7: 空间智能、争议与展望

1:00:04空间智能与大语言模型：具身智能预训练

空间智能与大语言模型：具身智能预训练

1:02:26World Model 与 VLA：Low Level 预测与 High Level 推理

World Model 与 VLA：Low Level 预测与 High Level 推理

1:04:22VLA 技术质疑：不同角度与技术交汇

VLA 技术质疑：不同角度与技术交汇

1:07:28VLA 技术：长期主义与潜力