英伟达团队机器训练新方法:仅 5 次演示让机器生成 1000 个新 demo
英伟达团队提出了一种新的机器训练方法,名为 DexMimicGen,该方法能够通过仅5次演示,让机器生成1000个新的演示(demo)。这一创新解决了机器人训练数据缺乏的问题,并且生成的数据在训练机器人执行任务时表现出了极高的成功率,甚至在某些情况下超过了使用真实人类数据的效果。
这项研究由英伟达实验室与德克萨斯大学奥斯汀分校合作完成,其核心思想是将人类示范数据分割成以目标物体为中心的片段,并通过变换物体相对位置和姿态,在新环境中复现人类示范轨迹,从而实现自动化数据生成。DexMimicGen 在 MimicGen 系统的基础上进行了改进和扩展,以适应双臂机器人的灵巧操作任务。
在实验中,研究人员通过佩戴 XR 头显远程控制机器人完成目标任务,从而产生了一小批示范数据。这些数据被切分成并行、协调和顺序三种子任务类型的片段。在数据生成过程中,DexMimicGen 会随机化模拟环境中物体的位置、姿态等数据,并随机选择一个人类示范作为参考。对于当前子任务,DexMimicGen 会计算示范片段与当前环境中关键物体位置和姿态的变换。之后,系统会维护每个手臂的动作队列,并直接重放示范数据中的手指关节运动。
收集好数据后,作者使用 DexMimicGen 生成的演示数据训练模仿学习策略,策略的输入为 RGB 相机图像,输出为机器人动作。最后,作者在数字孪生环境中评估并调优了训练得到的策略,以提高其泛化性能和鲁棒性,并成功迁移到实际机器人系统中。
DexMimicGen 的共同一作有三位,均是 UT 奥斯汀的华人学生,且均出自李飞飞的学生、浙大校友朱玉可(Yuke Zhu)助理教授门下。项目的三位负责人也都在英伟达工作,分别是 Ajay Mandlekar、范麟熙(Jim Fan)和朱玉可。
总的来说,DexMimicGen 提供了一种高效且有效的机器人训练数据生成方法,为机器人技术的进一步发展提供了新的可能性。