GalaxeaOpenWorld

更新时间：2025-12-15

简介

Galaxea开放世界数据集是一个在真实人类生活与工作环境中记录的大规模、多样化机器人行为集合。所有演示数据均采用统一的机器人实体进行采集，并配有精确的子任务级语言标注，以同时支持训练与评估。基于此数据集，提出G0双系统框架：通过视觉语言模型（VLM）进行多模态规划，并与视觉-语言-动作模型（VLA）协同实现细粒度执行。G0采用三阶段课程训练：跨实体预训练、单实体预训练和任务特定后训练。通过涵盖桌面操作、少样本学习和长程移动操作的综合基准测试，方法展现出显著有效性。特别值得注意的是，单实体预训练阶段与Galaxea开放世界数据集的结合对实现强劲性能具有关键作用。本工作聚焦机器人视觉-语言-动作（VLA）模型的落地痛点——大规模高质量开放世界机器人数据稀缺与模型泛化能力不足，提出两大核心成果：

Galaxea Open-World Dataset：首个在真实人类生活/工作场景中采集的大规模机器人行为数据集，解决现有数据集场景单一、本体不一致、标注粗糙的问题；
G0双系统框架：耦合“慢思考”的视觉-语言模型（G0-VLM）与“快执行”的VLA模型（G0-VLA），通过三阶段训练策略实现复杂任务的规划与精准执行，在桌面操作、少样本学习、长程移动操作等基准测试中表现优异。

主要功能

500+小时的真实世界移动操作数据

所有数据均使用统一的机器人形态收集以确保一致性。

细粒度的子任务语言标注。

涵盖住宅、厨房、零售和办公环境。

数据集以 RLDS 和 LeRobot 格式提供。

如果您使用该数据集，请查看并遵守发布方声明的开源协议 HuggingFace。

Text

1@article{galaxea2025,
2  title={Galaxea G0: Open-World Dataset and Dual-System VLA Model},
3  author={Galaxea Team},
4  journal={arXiv preprint arXiv:2509.00576},
5  year={2025}
6}

评价此篇文章

有帮助没帮助

PhysicalAI-Robotics-Manipulation-Kitchen

RealOmni

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

GalaxeaOpenWorld

简介

主要功能