简介:人大系初创公司智子引擎发布多模态大模型Awaker1.0,具备自主更新能力,在写真视频生成上超越Sora,为通用人工智能(AGI)的实现迈出重要一步。
在人工智能领域,每一次技术的飞跃都预示着未来的无限可能。近日,人大系初创公司智子引擎在中关村论坛通用人工智能平行论坛上,隆重发布了其全新的多模态大模型——Awaker 1.0,这一创举不仅标志着人大系多模态模型正式迈向通用人工智能(AGI)的新纪元,更在技术上实现了自主更新的突破,同时在写真视频生成方面展现出了超越Sora的卓越能力。
Awaker 1.0作为智子引擎的力作,相较于其前代ChatImg序列模型,采用了全新的MOE架构,并首次实现了业界瞩目的“真正”自主更新能力。这一能力意味着Awaker 1.0能够实时、持续地更新其参数,以适应不断变化的应用环境,从而解决了传统多模态大模型迭代更新周期长、需要大量人力财力投入的痛点。
在视觉生成方面,Awaker 1.0更是展现出了非凡的实力。它采用了智子引擎完全自研的视频生成底座VDT,这一创新技术不仅使得Awaker 1.0在写真视频生成上取得了好于Sora的效果,更打破了大模型“最后一公里”落地难的困境。VDT的出色时间依赖性捕获能力,能够生成时间上连贯的视频帧,包括模拟三维对象随时间的物理动态,这为写真视频生成提供了强有力的技术支持。
Awaker 1.0的自主更新机制包含了三大关键技术:数据主动生成、模型反思评估、模型连续更新。这一机制使得Awaker 1.0能够与各种智能设备结合,通过智能设备观察世界,产生动作意图,并自动构建指令控制智能设备完成各种动作。智能设备在完成动作后产生的反馈,又会源源不断地传回给Awaker 1.0,作为其持续自我更新的训练数据。这种云边协同的技术路线已经应用在电网智能巡检、智慧城市等应用场景中,取得了远远好于传统小模型的识别效果,并获得了行业客户的高度认可。
值得一提的是,Awaker 1.0在理解侧也展现出了强大的能力。它能够与数字世界和现实世界进行交互,在执行任务的过程中将场景行为数据反哺给模型,以实现持续更新与训练。这种能力使得Awaker 1.0能够适用于更广泛的行业场景,解决更复杂的实际任务,如AI Agent、具身智能、综合治理、安防巡检等。
多模态大模型与具身智能的结合被认为是实现通用人工智能(AGI)的可行路径。Awaker 1.0作为世界上首个具有自主更新机制的多模态大模型,可以用作具身智能的“大脑”,大幅提升具身智能的适应性和创造性。通过将多模态大模型用作具身智能的“大脑”,我们有望大幅地提升其适应性和创造性,从而最终接近AGI的门槛(甚至实现AGI)。
此外,Awaker 1.0的基座模型还解决了多模态多任务预训练存在严重冲突的问题。受益于精心设计的多任务MOE架构,Awaker 1.0的基座模型既能继承智子引擎前代多模态大模型ChatImg的基础能力,还能学习各个多模态任务所需的独特能力。在计数和OCR问题上,Awaker 1.0能正确地给出答案,而其他模型则回答错误或部分错误。在视觉问答和业务应用任务上,Awaker 1.0也超过了GPT-4V、Qwen-VL-Max和Intern-VL等国内外最先进的模型。
展望未来,随着Awaker 1.0技术的不断成熟和应用场景的不断拓展,我们有理由相信,它将为人工智能领域带来更多的创新和突破。同时,作为人大系多模态模型的杰出代表,Awaker 1.0的成功发布也为我国人工智能产业的发展注入了新的活力和动力。在这一背景下,我们可以期待更多像Awaker 1.0这样的优秀产品涌现出来,共同推动人工智能技术的进步和发展。
值得一提的是,在Awaker 1.0的研发过程中,千帆大模型开发与服务平台为其提供了强大的技术支持和算力保障。该平台的高效性能和稳定性,为Awaker 1.0的成功发布奠定了坚实的基础。同时,随着Awaker 1.0的广泛应用和不断迭代更新,千帆大模型开发与服务平台也将迎来更多的发展机遇和挑战。
综上所述,Awaker 1.0的发布不仅标志着人大系多模态模型迈向了AGI的新纪元,更在技术上实现了自主更新的突破和写真视频生成的超越。我们有理由相信,在未来的发展中,Awaker 1.0将继续引领人工智能领域的潮流和趋势,为人类社会带来更多的福祉和进步。