GalaxeaOpenWorld
更新时间:2025-12-15
简介
Galaxea开放世界数据集是一个在真实人类生活与工作环境中记录的大规模、多样化机器人行为集合。所有演示数据均采用统一的机器人实体进行采集,并配有精确的子任务级语言标注,以同时支持训练与评估。基于此数据集,提出G0双系统框架:通过视觉语言模型(VLM)进行多模态规划,并与视觉-语言-动作模型(VLA)协同实现细粒度执行。G0采用三阶段课程训练:跨实体预训练、单实体预训练和任务特定后训练。通过涵盖桌面操作、少样本学习和长程移动操作的综合基准测试,方法展现出显著有效性。特别值得注意的是,单实体预训练阶段与Galaxea开放世界数据集的结合对实现强劲性能具有关键作用。本工作聚焦机器人视觉-语言-动作(VLA)模型的落地痛点——大规模高质量开放世界机器人数据稀缺与模型泛化能力不足,提出两大核心成果:
- Galaxea Open-World Dataset:首个在真实人类生活/工作场景中采集的大规模机器人行为数据集,解决现有数据集场景单一、本体不一致、标注粗糙的问题;
- G0双系统框架:耦合“慢思考”的视觉-语言模型(G0-VLM)与“快执行”的VLA模型(G0-VLA),通过三阶段训练策略实现复杂任务的规划与精准执行,在桌面操作、少样本学习、长程移动操作等基准测试中表现优异。
主要功能
500+小时的真实世界移动操作数据
所有数据均使用统一的机器人形态收集以确保一致性。
细粒度的子任务语言标注。
涵盖住宅、厨房、零售和办公环境。
数据集以 RLDS 和 LeRobot 格式提供。
如果您使用该数据集,请查看并遵守发布方声明的开源协议 HuggingFace。
Text
1@article{galaxea2025,
2 title={Galaxea G0: Open-World Dataset and Dual-System VLA Model},
3 author={Galaxea Team},
4 journal={arXiv preprint arXiv:2509.00576},
5 year={2025}
6}
