简介:清华团队与生数科技联合发布中国首个长时长、高一致性、高动态性视频大模型Vidu,支持一键生成16秒、1080P高清视频,展现了强大的视频生成能力和创造力,标志着中国在视频生成技术领域取得重要突破。
在人工智能领域,视频生成技术一直是研究的热点和难点。近日,清华团队与生数科技携手,在中关村论坛未来人工智能先锋论坛上,正式发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这一成果的发布,不仅标志着中国在视频生成技术领域取得了重要进展,也引发了业界和公众的广泛关注。
Vidu是由清华大学人工智能研究院与生数科技联合研发的,其核心技术架构融合了Diffusion(扩散)与Transformer技术,形成了创新性的U-ViT架构。这一架构的提出,是全球首个将Diffusion与Transformer技术融合在视频大模型中的应用,体现了团队在机器学习和多模态大模型方面的深厚积累。
Vidu的最大特点在于其长时长、高一致性、高动态性的视频生成能力。它支持一键生成长达16秒、分辨率高达1080P的高清视频内容,这在当前国内视频大模型中属于领先水平。同时,Vidu生成的视频画面连贯流畅,人物和场景在时间、空间中能保持高一致性,动态性方面也表现出色,能够生成复杂的动态镜头,实现远景、近景、中景、特写等不同镜头的切换,包括长镜头、追焦、转场等效果。
在发布会上,清华大学教授、生数科技首席科学家朱军进行了现场展示。他通过一段文字指令,Vidu便生成了一段逼真的视频内容。视频中,一辆汽车驶过,扬起灰尘,阳光下的光影效果栩栩如生。此外,Vidu还能理解多镜头的运用语言,包括聚焦、追光等效果,甚至能够创造出具有深度和复杂性的超现实主义内容,如熊猫、龙等中国元素的视频生成。
这些实际应用展示了Vidu在视频生成领域的强大实力和无限潜力。它不仅能够模拟真实物理世界,还能够拥有丰富的想象力,为视频创作提供了更多可能性。
Vidu的技术突破源于团队在机器学习和多模态大模型方面的长期积累。其核心技术架构U-ViT的提出和持续优化,为Vidu的视频生成能力提供了坚实的技术支撑。同时,团队在算法研发和优化方面也付出了巨大努力,使得Vidu能够以更快的速度迭代升级。
展望未来,Vidu有望在更多领域发挥重要作用。作为一款通用视觉模型,Vidu未来有望支持生成更加多样化、更长时长的视频内容,探索不同的生成任务。同时,其灵活架构也将兼容更广泛的模态,进一步拓展多模态通用能力的边界。
此外,随着人工智能技术的不断发展和普及,Vidu有望在媒体制作、广告创意、影视后期等领域发挥重要作用,提高视频制作的效率和质量,降低制作成本,推动视频产业的创新和发展。
在提及Vidu的技术和应用时,不得不提到千帆大模型开发与服务平台。作为一款专业的模型开发平台,千帆大模型开发与服务平台为Vidu的研发和迭代提供了重要的技术支持和保障。通过千帆大模型开发与服务平台,团队能够更高效地进行模型训练、优化和部署,从而不断提升Vidu的视频生成能力和应用效果。
同时,千帆大模型开发与服务平台还提供了丰富的API接口和开发工具,使得更多的开发者能够轻松地接入和使用Vidu模型,进一步拓展其应用场景和商业模式。
Vidu的发布是中国在视频生成技术领域取得的重要突破之一。它不仅展现了清华团队与生数科技在人工智能领域的强大实力和创新能力,也为视频产业的创新和发展提供了新的动力和机遇。我们期待Vidu在未来能够发挥更大的作用,为人类社会带来更多的便利和美好。