Loading...

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

AI资讯1周前发布 aizhushou

3 0 0

仿真任务成功率最高97%

克雷西发自凹非寺

量子位 | 公众号 QbitAI

人类只需要演示五次，就能让机器人学会一项复杂技能。

英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案——DexMimicGen。

五次演示之后，DexMimicGen就可以直接模仿出1000个新的demo。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

而且可用性强，用这些新demo训练出的机器人，在仿真环境中的任务成功率可以高达97%，比用真人数据效果还要好。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

参与此项目的英伟达科学家范麟熙（Jim Fan）认为，这种用机器训练机器的方式，解决了机器人领域最大的痛点（指数据收集）。

同时，Jim Fan还预言：

机器人数据的未来是生成式的，整个机器人学习流程的未来也将是生成式的。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

值得一提的是，DexMimicGen三名共同一作都是李飞飞的“徒孙”，具体说是德克萨斯大学奥斯汀分校（UT奥斯汀）助理教授朱玉可（Yuke Zhu）的学生。

而且三人均为华人，目前都在英伟达研究院实习。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

5次演示，生成1000条数据

如前所述，DexMimicGen可以仅根据人类的5次演示，生成1000个新DEMO。

在整个实验中，作者设置了9个场景，涵盖了3种机器人形态，共进行了60次演示，获得了21000多个生成DEMO。

在仿真环境当中，用DexMimicGen生成数据训练出的策略执行整理抽屉这一任务，成功率可达76%，而单纯使用人工数据只有0.7%。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

对于积木组装任务，成功率也从3.3%提升到了80.7%。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

成功率最高的任务是罐子分类，更是高达97.3%，只用人工数据的成功率同样只有0.7%。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

整体来看，在仿真环境中，生成数据让机器人在作者设计的九类任务上的成功率均明显增加。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

相比于baseline方法，用DexMimicGen生成的数据也更为有效。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

迁移到真实环境之后，作者测试了易拉罐分拣的任务，结果仅用了40个生成DEMO，成功率就达到了90%，而不使用生成数据时的成功率为零。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

除此之外，DexMimicGen还展现了跨任务的泛化能力，使训练出的策略在各种不同任务上表现良好。

针对初始状态分布变化，DexMimicGen也体现出了较强的鲁棒性，在更广泛的初始状态分布D1和D2上测试时，仍然能够拥有一定的成功率。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

将仿真方法迁移到现实

DexMimicGen是由MimicGen改造而成，MimicGen也出自英伟达和UT奥斯汀的联合团队。

朱玉可和范麟熙都参与过MimicGen的工作，该成果发表于CoRL 2023。

MimicGen的核心思想，是将人类示范数据分割成以目标物体为中心的片段，然后通过变换物体相对位置和姿态，在新环境中复现人类示范轨迹，从而实现自动化数据生成。

DexMimicGen则在MimicGen系统的基础上，针对双臂机器人灵巧操作任务做了改进和扩展，具体包括几个方面：

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

工作流程上，DexMimicGen会首先对人类示范进行采集和分割。

研究人员通过佩戴XR头显，远程控制机器人完成目标任务，在这一过程中就会产生一小批示范数据，作者针对每个任务采集了5~10个人类示范样本。

这些人类示范样本会按照并行、协调、顺序三种子任务定义被切分成片段——

总之，在示范数据被切分后，机器人的每个手臂会得到自己对应的片段集合。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

在数据生成开始时，DexMimicGen随机化模拟环境中物体的位置、姿态等数据，并随机选择一个人类示范作为参考。

对于当前子任务，DexMimicGen会计算示范片段与当前环境中关键物体位置和姿态的变换。

之后用该变换对参考片段中的机器人动作轨迹进行处理，以使执行这一变换后的轨迹能够与新环境中物体位置匹配。

生成变换后，DexMimicGen会维护每个手臂的动作队列，手指关节的运动则直接重放示范数据中的动作。

在整个过程中，系统不断检查任务是否成功完成，如果一次执行成功完成了任务，则将执行过程记录下来作为有效的演示数据，失败则将数据丢弃。

之后就是将生成过程不断迭代，直到获得足够量的演示数据。

收集好数据后，作者用DexMimicGen生成的演示数据训练模仿学习策略，策略的输入为RGB相机图像，输出为机器人动作。

最后是模拟到现实的迁移，同样地，作者使用DexMimicGen在数字孪生环境中生成的大规模演示数据，训练模仿学习策略。

之后作者对在数字孪生环境中评估训练得到的策略进行调优，以提高其泛化性能和鲁棒性，并迁移到实际机器人系统中。

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

作者简介

DexMimicGen的共同一作有三人，都是UT奥斯汀的华人学生。

并且三人均出自李飞飞的学生、浙大校友朱玉可（Yuke Zhu）助理教授门下，他们分别是：

朱玉可的另一重身份是英伟达的研究科学家，团队的另外两名负责人也都在英伟达。

他们分别是Ajay Mandlekar和范麟熙（Jim Fan），也都是李飞飞的学生，Mandlekar是整个DexMimicGen项目组中唯一的非华人。

另外，Zhenjia Xu和Weikang Wan两名华人学者对此项目亦有贡献，整个团队的分工如下：

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

△中文为机翻，仅供参考

项目主页：

论文地址：

参考链接：

[1]

[2]

# AI资讯 # 1000 条数据 # 5 次演示 # DexMimicGen # 演示数据生成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OpenAI 核心高管离职引关注，GPT-4o 发布背后的安全问题揭秘

AI助手

19 0

字节豆包首个AI硬件来了，定价1199元！

AI助手

21 0

重庆特斯联冲刺AIoT第一股！3年29亿营收，超六成来自AI产业数智化

AI助手

18 0

95后创业AI游戏陪玩，留存付费双高！已适配《黑神话》，团队全员二次元

AI助手

22 0

大牛陶吉带队，长安自研智驾12个月交卷：端到端成功挑战重庆8D魔鬼立交，上车最新全尺寸SUV

AI助手

7 0

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

AI助手

3 0

暂无评论

暂无评论...

AI助手是一个全面的人工智能工具导航平台，旨在帮助用户发现和使用各种AI相关工具和资源。无论您是想提升工作效率、进行学习还是寻找特定的技术支持，这里都汇集了最新、最实用的AI工具和应用

友链申请免责声明广告合作关于我们

Copyright © 2024 AI导航助手