北京生数科技有限公司(简称“生数科技”)成立于2023年3月,核心团队成员来自清华大学人工智能研究院,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。公司致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏制作影视后期、内容社交等场景的商业赋能,通过AI提升人类的创造力和生产力。
众所周知,视频生成产品的开发周期长且费用高昂。密集而快节奏的模型训练任务,不仅需要大规模的算力,还需要从数据准备到模型训练、再到模型推理的全链路保障。
生数科技作为国内最早布局多模态通用大模型的团队之一,今年4月联合清华大学发布了国内首款全面对标OpenAlSora的视频大模型Vidu。自4月底首次亮相以来,Vidu凭借媲美Sora的文生长视频能力,迅速在国内外引起广泛关注。此次Vidu全面开放了文生视频、图生视频两大功能,提供4s和8s两种时长选择,分辨率最高达1080P。
在效果上,Vidu不仅延续了四月份展示的高动态性、高逼真度、高一致性等优势,还在上线版本中新增了角色一致性(Character To Video)、动漫风格、文字与特效画面生成等特色能力。上线后一个月迭代推出了“主体参照”的新功能。同时,在影响用户体验的推理速度层面,Vidu实现了业界最快的实测推理速度,生成一段4秒片段只需30秒。而市面上的主流AI视频工具在生成4秒左右的视频片段时,用户通常需要等待1到5分钟,甚至更长。Vidu的高效推理不仅为用户带来了接近于无缝的创作体验,更短的处理时间还意味着它能够轻松应对大量用户的需求,提供个性化的服务。





