机器狗能当羽毛球搭子了仅靠强化学习从0自学还涌现出类人回位行为

来和机器狗一起运动不？你的羽毛球搭子来了！无需人工协助，仅靠强化学习，机器狗子就学会了羽毛球哐哐对打，就像这样——

在室外：

在室内：

都不在话下。

基于强化学习，研究人员开发了机器狗的全身视觉运动控制策略，同步控制腿部（18个自由度）移动，和手臂挥拍动作。

最终呈现出来的表现不赖，狗子最高挥拍速度达到12米/秒。

在与人类选手的协作比赛中，某一回合连续击球10次，甚至涌现出如击球后回位中心的类人行为。

该研究在各种环境中进行了大量实验，验证了四足机器人预测羽毛球轨迹、有效导航服务区域，以及对人类球员进行最精准打击的能力。

证明了足式移动机器人在复杂和动态的体育场景中应用的可行性。

研究背后团队来自苏黎世联邦理工学院。

相关论文刚刚发表在Science旗下子刊Science Robotics上。

羽毛球“大战”中涌现出类人行为

学会打羽毛球的机器狗是什么配置？

公开数据如下：

主体由一个四足ANYmal-D底座和一个动态手臂DynaArm组成。

它配备了一个带有全局快门的ZED X立体相机用于羽毛球感知。相机在坐标系中计算出的羽毛球位置，预测拦截位置，这个值和机器人本体感知观测值一起被喂给强化学习策略。

然后生成关键指令，来控制四足底座。

此外，羽毛球拍相对于腕关节呈45°角定向。研究人员表示，根据早期对不同朝向的仿真测试，这被证明是最有效的配置。

如下图所示，在部署过程中，狗子以400 Hz的频率运行，同时机器人控制策略以100 Hz的速率更新观测值并发送关节位置指令。

系统的感知包括羽毛球位置测量、状态估计和轨迹预测，它在Jetson AGX Orin模块上以60 Hz的频率异步运行。

基于这个配置，狗子和人类业余羽毛球选手开打了。

整个过程中，虽然存在一些失误，但狗子还是能够根据不同的速度和落点的来球做出适当反应。

平均来说，感知模块在对手机球后需要花费0.357秒来判断拦截轨迹。通常，羽毛球会在0.654秒后达到四足底座上方1.25米然后被拦截。

记录中，狗子从预测到击球最快耗时0.367秒。

狗子和人类打得有来有回——没错，它能够进行连续击球。

在官方放出的视频中，就有一次对打进行了10次连续击球。

值得一提的是，狗子还涌现了类人行为——

每次击球后，狗子会自动向球场中心移步。

类似于人类玩家每次击球过后都会调整站位和站姿，为下一次击球做好准备。

在给定真实感知（ground-truth perception）的情况下，研究人员评估了在指令挥拍时间到达拦截位置0.1米范围内（大约是球拍中心到边缘的距离）的击球百分比。

仿真结果表明，在发球区，狗子拦截来球几乎一拦一个准，失败率可忽略不计。

不过，当狗子站在在发球区边界，或者羽毛球直接落在狗子身后时，机器狗预测羽毛球轨迹并成功拦截就变成了一件很有挑战性的任务。

因为当羽毛球从正上方或正后方接近狗子时，它必须直接向上俯仰。这对机器狗来说很有难度。

上图中的折线统计图B，绘制了执行的EE速度和最大基座角速度相对于指令速度的曲线。

在执行10m/s的挥拍速度时，狗子基本都能跟踪指令速度；速度超过10m/s时，精度就会下降。

当命令他以19m/s挥拍时，机器狗出现了最高执行速度，即12.06m/s。相比之下，业余羽毛球运动员可以达到20m/s至30m/s的挥拍速度。

如材料与方法部分所述，系统在接近其电流和关节速度极限的情况下运行以实现这些指令。此外，更高的指令速度导致基座角速度增加，表明基座姿态控制与操作器挥动之间存在耦合。

上图中的C部分显示了在击球时间前后球拍与目标位置之间的距离，球拍在指令的击球时刻精确到达其最近点。

在指令12m/s挥拍时，机器狗执行的平均挥拍速度为10.8m/s，平均位置误差为0.117米。

换句话说，当球拍以目标速度移动时，仅有0.0108秒的偏移。

此外，整个羽毛球大战中，机器狗会自主学习动态调整相机姿态，根据任务紧迫性动态调整步态，包括短距离微调姿态、中距离不规则步态、长距离类疾驰（Galloping）步态等。

比如，它以快跑进行远距离快速拦截，并在近距离回击时稳定，动态协调手臂和腿部。

一种基于强化学习的统一控制策略

打羽毛球的难点，就是需要运动员在步法和上肢运动之间进行复杂的相互协调作用。

对机器狗来说，这也是一项需要精确协调感知、移动和手臂挥动的任务。

更进一步来说，需要机器狗在动态环境中协调下肢与上肢之间的运动，并使肢体控制与感知对齐。

这对机器狗来说同样不是一件简单的事情。

一方面，当前控制器和硬件存在不足；另一方面，羽毛球对感知、移动和操作之间复杂的相互作用提出了极高的要求，需要平衡“快速响应的移动”与“精确的手臂运动”。

尽管在原理上，机器人拥有大量的自由度以实现灵活运动，但在实践中，这很大程度上取决于控制算法。

在实际应用中，另一种大家熟知的球类——乒乓球，在精确性和策略方面的研究都更为广泛，这类情况目前主要的解决办法是使用带有外部视觉系统的固定基座或龙门式操作器。

相比之下，本研究强调全身视觉运动技能，并仅依赖机载感知，整合了腿式移动和手臂挥动——这种方法更好地模拟了人类打羽毛球时候的方式。

研究团队提出了一种基于强化学习的统一控制策略。

它用于涉及所有自由度的全身视觉运动技能，以实现有效的羽毛球跟踪和击打。

该策略由一个利用真实世界相机数据的感知噪声模型提供信息，从而确保仿真与部署之间感知误差水平的一致性，并促进学习主动感知行为。

这为解决教师-学生训练的一个已知局限提供了方法：

即用完美感知训练出来的教师策略与用于部署的学生策略之间存在的信息差距。

在这样的框架中，教师策略没有动力去学习主动感知行为，因为它已经能够获得完美的观测结果；学生策略则仅基于部分观测和由本体感知和感知历史重构的潜在向量来模仿这些行为。

因此，两种策略都没有发展出主动感知行为，并且在用于控制的信息上出现了差异。

此外，该方法还包括一个羽毛球预测模型和用于鲁棒运动控制的约束强化学习，以增强部署准备度。

与基准相比，在没有明确的视野范围奖励的情况下，机器狗即可实现更低的感知误差，和更高效的机械功率使用。

团队表示，当前系统主要依赖一个商用立体相机上的扩展卡尔曼滤波器（EKF）进行羽毛球状态估计。

该方法可以通过整合额外的传感模态来改进，例如通过扭矩和声音进行冲击检测，或加入额外的 RGB（红、绿、蓝）、深度或事件相机，以增强机器人在更激烈的游戏场景中的物理交互响应。

鉴于人类球员通常通过观察对手动作来预测羽毛球轨迹，人体姿态估计也可能是一种提高策略性能的有价值模态。