
千寻智能基于百度智能云高性能AI Infra平台,实现Spirit v1 VLA模型高效训练,攻克柔性物体操作难题,推动具身智能在复杂任务场景的落地应用。
训练时长优化
VLA能力跃升
场景驱动进化
千寻智能(Spirit AI)成立于2024年2月,是国内领先的AI+机器人全栈生产力级技术能力的具身智能公司。公司团队成员来自北京大学、清华大学、UC Berkeley、CMU等顶尖高校,以及字节跳动、小米、腾讯等知名企业。
成立一年多,千寻智能凭借卓越的技术实力和创新理念,已成功完成多轮融资,并致力于打造世界级通用人形机器人和下一代具身大模型与学习算法,让通用的机器人伙伴走进千家万户,驱动世界迈向智能机器人时代。
近年来,具身智能行业正迎来前所未有的投资热潮与发展机遇,市场潜力巨大。高盛预测,到2035年全球范围内人形机器人市场规模有望达到1540亿美元。当前,具身智能机器人产品落地面临的主要挑战主要围绕以下四个方面,包括负责high-level指令理解和任务规划的“大脑”、负责移动和操作运动控制的“小脑”、服务模型训练的具身智能数据集建设、以及本体软硬件相关能力建设。
千寻智能的核心技术布局涵盖具身大模型与机器人硬件等软硬件全栈能力,其发布的全新Spirit v1 VLA(Vision-Language-Action)模型抢先版,在国内率先实现攻克柔性物体长程操作难题的突破。具体来看,该模型通过动态场景感知技术,解决了衣物褶皱、形态随机性带来的操作难题,并在时序控制上实现高精度动作策略调整,使机器人能够通过自然语言指令完成叠衣服等复杂任务。
现阶段,云上AI算力要解决的核心问题是,能不能把算力高效使用起来,加速模型研发工作更快速出成果。百度智能云为千寻智能提供了高性能稳定可靠的AI Infra基础设施,支持VLA视觉语言动作模型高效训练。
传统机器人依赖预设程序,而具身智能通过“感知—思考—行动”闭环,实现自主决策。VLA视觉语言动作模型的泛化能力,可以赋予机器人适应复杂多变环境与多样化任务的能力,使其能够精准执行连续复杂操作。
百度智能云具身智能AI Infra技术平台,可帮助用户将集群有效训练时长提升到98.8%,尽可能确保每一分算力成本支出都不浪费,更高的有效训练时长本质上也意味着降本;配套的大模型训推加速套件也分别大幅提升训练和推理效率30%和60%。
针对具身大模型开发的差异化特点,百度智能云也正着力于优化长序列性能和多模态训练架构。未来,百度智能云将全力支持千寻智能通过场景驱动技术进化,持续快速迭代VLA视觉语言动作模型,并在智能制造、服务行业等万亿级市场推进商业化落地。





