项目背景

北京生数科技有限公司（简称“生数科技”）成立于2023年3月，核心团队成员来自清华大学人工智能研究院，是全球范围内领先的深度生成式算法研究团队，拥有扩散概率模型底层创新研发能力。公司致力打造世界领先的多模态大模型，融合文本、图像、视频、3D等多模态信息，探索生成式AI在艺术设计、游戏制作影视后期、内容社交等场景的商业赋能，通过AI提升人类的创造力和生产力。

项目挑战

众所周知，视频生成产品的开发周期长且费用高昂。密集而快节奏的模型训练任务，不仅需要大规模的算力，还需要从数据准备到模型训练、再到模型推理的全链路保障。

大模型训练规模大，时间周期长，硬件、系统配置和软件的故障都有可能引起训练中断，集群无法持续有效训练。
AI基础设施涵盖技术领域范围广，系统复杂，如何高效运维和资源治理，如何有针对性的执行训练任务调优

解决方案

在提升模型训练效率方面，百度百舸可以把异构算力进行统一管理，通过性能优化、自动选型、潮汐混部这些经验和技术，大幅提升智能算力效能，万卡集群上的模型有效训练时长占比超过98.8%，线性加速比和带宽有效性均超过了95%，是业界领先的算力效能。
在提升模型训练稳定性方面，百度百舸提供了丰富的运维和可观测工具以及容错保障能力，提升了大规模集群长期运行的稳定性，降低因为故障导致训推任务异常终止的概率，减少业务损失。

客户收益

生数科技作为国内最早布局多模态通用大模型的团队之一，今年4月联合清华大学发布了国内首款全面对标OpenAlSora的视频大模型Vidu。自4月底首次亮相以来，Vidu凭借媲美Sora的文生长视频能力，迅速在国内外引起广泛关注。此次Vidu全面开放了文生视频、图生视频两大功能，提供4s和8s两种时长选择，分辨率最高达1080P。

在效果上，Vidu不仅延续了四月份展示的高动态性、高逼真度、高一致性等优势，还在上线版本中新增了角色一致性（Character To Video）、动漫风格、文字与特效画面生成等特色能力。上线后一个月迭代推出了“主体参照”的新功能。同时，在影响用户体验的推理速度层面，Vidu实现了业界最快的实测推理速度，生成一段4秒片段只需30秒。而市面上的主流AI视频工具在生成4秒左右的视频片段时，用户通常需要等待1到5分钟，甚至更长。Vidu的高效推理不仅为用户带来了接近于无缝的创作体验，更短的处理时间还意味着它能够轻松应对大量用户的需求，提供个性化的服务。

百度百舸为生数科技大模型训练提供高效稳定算力

项目背景

项目挑战

解决方案

客户收益

相关案例