从削苹果到Scaling Law，机器人离“有手感”还有多远？-对谈Sharpa、NVIDIA-Vol94

具身智能领域正通过灵巧手硬件与多模态 AI 模型的协同，突破复杂操作的落地瓶颈。灵巧手作为通用机器人的核心执行终端，其自由度设计与触觉感知能力直接决定了机器人处理精细任务（如折纸、削苹果）的成功率。当前行业正通过 “数据金字塔” 策略解决训练数据匮乏问题，即利用互联网海量视频进行视觉预训练，结合仿真引擎（如 NVIDIA Newton）合成触觉动力学数据，并辅以少量真机数据进行端到端调优。模型架构上，分层式系统（System 0/1/2）通过解耦触觉响应、视觉规划与语言推理，实现了从毫秒级动态反馈到长程任务规划的全面覆盖。随着 Scaling Law 在具身数据上的验证，第一人称视角视频数据正成为提升机器人通用操作能力的关键资源。

Outlines

Sign in to continue reading, translating and more.