简介:苹果发布了开源多模态大语言模型Ferret,该模型具有卓越的图文关联能力,并专为移动设备UI交互定制了Ferret-UI版本,展现了在UI任务上的优越性能,为AI在iPhone上的应用开辟了新的可能。
近日,苹果公司在AI领域迈出了重要一步,发布了全新的开源多模态大语言模型——Ferret。这一模型的发布不仅彰显了苹果在AI技术上的深厚积累,更为未来的智能设备交互体验带来了全新的想象空间。
Ferret是一款能够接受文字、声音、影像或数据输入的多模态模型。其核心优势在于能够理解图像中任何形状或粒度的空间引用,并准确地为开放词汇描述奠定基础。为了实现这一功能,Ferret采用了一种新颖而强大的混合区域表示方法,将离散坐标和连续特征结合在一起,以表示图像中的区域。此外,为了提取多功能区域的连续特征,还设计了一个空间感知视觉采样器,它能够处理不同形状的不同稀疏性,使Ferret能够接受多样化的区域输入,如点、边界框和自由形状等。
苹果通过GRIT数据集(一个广大的refer-and-ground指令微调数据集)对Ferret进行了训练和优化。在与Kosmos-2、GPT4-ROI、LLaVA、Shikra等多模态大语言模型的比较中,Ferret展现出了卓越的性能。特别是在传统引用及定位任务上,Ferret-13B模型具有优异效能。此外,在区域为基础、需要本地化的多模态对话、细节描述以及复杂推理等任务上,Ferret-13B的表现同样优于其他模型。
在Ferret的基础上,苹果还推出了专为移动设备UI交互定制的Ferret-UI版本。这一版本配备了引用、定位和推理功能,能够“看懂”手机屏幕上的内容并执行任务。为了解决移动设备UI屏幕长宽比多样化的问题,Ferret-UI引入了“任何分辨率”(any resolution,简称anyres)技术。这项技术通过将屏幕分割成多个子图像,并对每个子图像进行放大以捕捉到更多细节,从而提高了模型对UI元素的细节识别能力。实验证明,Ferret-UI在大多数基础UI任务上都展现出了优越的性能,特别是在与iPhone相关的任务上,其表现远超GPT-4V等其他模型。
值得注意的是,苹果将Ferret模型进行了开源,这意味着开发者可以基于这一模型进行二次开发和优化。这无疑将极大地推动AI技术的普及和发展,同时也为苹果自身的AI生态建设注入了新的活力。随着Ferret模型的不断完善和应用的不断拓展,我们有理由相信,未来的iPhone将会更加智能、更加人性化。
在探讨Ferret模型的应用前景时,不得不提到千帆大模型开发与服务平台。作为一款专业的大模型开发平台,千帆大模型开发与服务平台提供了丰富的工具和资源,可以帮助开发者更加高效地进行大模型的训练、优化和应用开发。如果能够将Ferret模型与千帆大模型开发与服务平台相结合,那么开发者将能够更加便捷地利用这一模型进行二次开发和创新应用,从而推动AI技术的快速发展和普及。
综上所述,苹果发布的开源多模态大语言模型Ferret无疑为AI技术的发展注入了新的活力。随着这一模型的不断完善和应用的不断拓展,我们有理由相信,未来的智能设备将会更加智能、更加人性化。而千帆大模型开发与服务平台作为专业的大模型开发平台,也将为这一进程提供有力的支持和保障。