Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

by AIBackup 2023-06-14

written by AIBackup 2023-06-14

Galactic是一种大规模的仿真和强化学习（RL）框架，专门用于室内环境中的机器人移动操控。具体来说，一个配备了移动基座、7DoF臂、RGBD摄像头、自我运动和车载感应的Fetch机器人被放置在家庭环境中，并被要求重新排列物体 – 通过导航到一个物体，拾取它，导航到目标位置，然后将物体放置在目标位置。

Galactic的速度非常快。在仿真速度（渲染+物理）方面，Galactic在8-GPU节点上实现了超过421,000步每秒（SPS），这比Habitat 2.0（7699 SPS）快54倍。更重要的是，Galactic被设计为优化整个渲染+物理+RL交互，因为交互中的任何瓶颈都会减慢训练。在仿真+RL速度（渲染+物理+推理+学习）方面，Galactic实现了超过108,000 SPS，这比Habitat 2.0（1243 SPS）快88倍。

这些巨大的速度提升不仅大大减少了现有实验的实际训练时间，而且还解锁了前所未有规模的新实验。首先，Galactic可以在不到16分钟内训练出一个精度超过80%的移动拾取技能，这比在Habitat 2.0中训练同样技能所需的超过24小时快100倍。其次，我们使用Galactic进行了有史以来最大规模的重排实验，使用了46小时的5B步经验，这相当于20年的机器人经验。这种规模扩展导致一个由任务不可知组件组成的单一神经网络在GeometricGoal重排中实现了85%的成功率，而在Habitat 2.0中使用同样方法报告的成功率为0%。代码可在github.com/facebookresearch/galactic上找到。

更多信息可以在论文《Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second》中找到。这篇论文详细介绍了Galactic的设计、实现和实验结果，是对这个主题的深入研究。论文链接：点击这里。

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

AI新突破：零样本文本引导的视频到视频转换技术

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来

【AI助力】精准绘制树木高度的新方法