首页 » Galactic:以每秒100k步速度扩展端到端强化学习的重排任务

Galactic:以每秒100k步速度扩展端到端强化学习的重排任务

by AIBackup

Galactic是一种大规模的仿真和强化学习(RL)框架,专门用于室内环境中的机器人移动操控。具体来说,一个配备了移动基座、7DoF臂、RGBD摄像头、自我运动和车载感应的Fetch机器人被放置在家庭环境中,并被要求重新排列物体 – 通过导航到一个物体,拾取它,导航到目标位置,然后将物体放置在目标位置。

Galactic的速度非常快。在仿真速度(渲染+物理)方面,Galactic在8-GPU节点上实现了超过421,000步每秒(SPS),这比Habitat 2.0(7699 SPS)快54倍。更重要的是,Galactic被设计为优化整个渲染+物理+RL交互,因为交互中的任何瓶颈都会减慢训练。在仿真+RL速度(渲染+物理+推理+学习)方面,Galactic实现了超过108,000 SPS,这比Habitat 2.0(1243 SPS)快88倍。

这些巨大的速度提升不仅大大减少了现有实验的实际训练时间,而且还解锁了前所未有规模的新实验。首先,Galactic可以在不到16分钟内训练出一个精度超过80%的移动拾取技能,这比在Habitat 2.0中训练同样技能所需的超过24小时快100倍。其次,我们使用Galactic进行了有史以来最大规模的重排实验,使用了46小时的5B步经验,这相当于20年的机器人经验。这种规模扩展导致一个由任务不可知组件组成的单一神经网络在GeometricGoal重排中实现了85%的成功率,而在Habitat 2.0中使用同样方法报告的成功率为0%。代码可在github.com/facebookresearch/galactic上找到。

更多信息可以在论文《Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second》中找到。这篇论文详细介绍了Galactic的设计、实现和实验结果,是对这个主题的深入研究。论文链接:点击这里

 

也许你还会喜欢