NVIDIA推出AI自主“教练”方案在实验室里训练机器人装GPU、剪扎带

0 cnBeta.COM 2026-06-18 15:05:24

摘要：

美国当地时间 6 月 17 日消息，英伟达旗下通用具身智能体研究实验室（GEAR Lab）公布了一套全新的机器人自我改进方案：通过一支由 AI 编程代理人组成的“教练团队”，在几乎无人干预的情况下为机械臂设计训练流程，让机器人学会剪塑料扎带、整理小零件，甚至把 GPU 精准插入主板扩展槽。

这一方案基于一套名为 ENPIRE 的“智能体调度框架”（agent harness）——它像一层软件外壳，包裹在大模型外部，使 AI 编程代理人能够调用各类工具，并具备记忆、上下文管理、约束控制和反馈循环等能力，从而可以自动规划、执行、评估和迭代机器人训练任务。英伟达表示，这一框架由 GEAR Lab 团队联合卡内基梅隆大学和加州大学伯克利分校研究人员共同开发。

英伟达 AI 负责人范骏（Jim Fan）在社交平台上形容，如今实验室的一部分已经可以在夜间“自我改进”，研究人员只需早上查看训练报告即可了解机器人在前一晚的进展。他半开玩笑地表示，理想状态下“大家都去度假，黄仁勋都不会发现”，并称团队计划将相关成果开源，让任何人都可以在家里搭建自己的“自运行机器人实验室”。

ENPIRE 框架目前包括四大核心模块：一是为机器人任务提供自动复位与结果验证；二是自动优化机器人控制策略；三是在多台实体机器人上并行评估不同策略；四是通过分析日志、阅读论文、改进训练基础设施和算法代码来处理训练中的失败案例。研究团队在 6 月 16 日公开了一篇技术论文，详细介绍了该系统的实现细节和实验结果。

在实验中，研究人员分别引入了三类主流 AI 编程代理人：基于 OpenAI Codex 与 GPT‑5.5 的代理、基于 Anthropic Claude Code Opus 4.7 的代理，以及基于月之暗面（Moonshot AI）Kimi Code K2.6 的代理。这些代理人会以团队形式独立提出不同的算法改进方案，在真实机器人上开展训练试验，然后保留能提高整体成功率的变更，并不断循环迭代。

结果显示，在 ENPIRE 的调度下，AI 编程代理人可以为多种机械臂操作任务自动设计出有效的自我改进策略：在标准的 Push‑T 桌面操作任务中，机器人需要将 T 形积木精准推到目标区域；在其他任务中，机器人则被要求整理针盒中的小针、系紧并剪断塑料扎带，或将 GPU 插入主板插槽并在每轮试验后拔出复位。在多项任务上，系统最终实现了 99% 的成功率，其中在插针与整理任务上，AI 驱动的训练方案甚至比由人类参与的“前沿人类参与式方法”更快达到近乎 100% 的成功率。

实验还表明，增加代理人数可以明显加速学习进程：在 Push‑T 任务上，8 个代理人组成的团队只用了 2 小时研究时间就将成功率推到 99%，而 4 人团队需要 3 小时，单一代理人则接近 5 小时才达到同等水平。不过，研究人员也注意到，多代理协作的效率并非线性提升，代理人数量增加后，更多时间被消耗在相互总结和沟通思路上，而非真正调度机器人执行训练。

研究团队同时指出了当前系统的若干局限：在很多时间段，机器人被闲置在实验台上，等待 AI 编程代理人读取日志、编写和调试代码，或者等待底层语言模型响应。此外，在并行训练方面，代理人有时并没有充分利用现有算力资源，导致实验吞吐量低于理论上限。从成本角度来看，代理人数和训练频次的增加也意味着显著更高的 token 消耗，与当前多家 AI 服务提供商考虑提高按 token 计价的收费方式之间存在直接关联。

尽管仍有不足，英伟达显然正在加码其所谓“物理 AI”的宏大愿景。借助 AI 浪潮带来的充沛现金流，公司在多个机器人项目上持续投资：今年 5 月底，英伟达宣布与中国机器人企业优必选竞争对手优尼特（Unitree）合作，为研究机构提供一款“通用人形机器人参考平台”，用于通用 AI 机器人研发。今年 6 月初，黄仁勋在韩国进行密集访问，与现代汽车集团执行会长郑义宣会面，讨论如何扩大 AI 机器人的规模化制造；现代此前已收购了以四足“机器狗”Spot 闻名的美国波士顿动力公司，并正在推动双足人形机器人 Atlas 的商业化。

在这条路径上，ENPIRE 以及背后的 AI 编程代理人团队被视为通往“自驱动机器人实验室”的关键组成部分，它们尝试将人类专家在试错、调参和阅读文献上的大量工作交给 AI 完成，让研究人员更多扮演“早上审阅日报”的角色。随着相关代码和框架的开源，未来类似的自主训练体系是否会在高校、企业乃至个人爱好者中普及，将成为观察“物理 AI”落地速度的重要窗口。

查看评论

今日最热

加载中...

最新资讯

今日最热