具身智能领域正通过灵巧手硬件与多模态 AI 模型的协同,突破复杂操作的落地瓶颈。灵巧手作为通用机器人的核心执行终端,其自由度设计与触觉感知能力直接决定了机器人处理精细任务(如折纸、削苹果)的成功率。当前行业正通过 “数据金字塔” 策略解决训练数据匮乏问题,即利用互联网海量视频进行视觉预训练,结合仿真引擎(如 NVIDIA Newton)合成触觉动力学数据,并辅以少量真机数据进行端到端调优。模型架构上,分层式系统(System 0/1/2)通过解耦触觉响应、视觉规划与语言推理,实现了从毫秒级动态反馈到长程任务规划的全面覆盖。随着 Scaling Law 在具身数据上的验证,第一人称视角视频数据正成为提升机器人通用操作能力的关键资源。
Sign in to continue reading, translating and more.
Continue