简介:清华大学与智谱AI联合推出的CogAgent,是一个基于多模态大模型的GUI Agent,可接受高分辨率图像输入,具备视觉问答、视觉定位及GUI Agent等多种能力,在多个图像理解榜单和GUI Agent数据集上取得领先成绩,并已开源至GitHub。
在人工智能领域,GUI(图形用户界面)的自动化操作一直是研究的热点。传统的基于语言预训练模型(LLM)的Agent虽然具备良好的应用前景,但受限于LLM的模态,只能接受语言形式的输入,这在处理GUI界面时显得力不从心。为了解决这个问题,清华大学与智谱AI联合推出了CogAgent,一个基于多模态大模型的GUI Agent,为GUI的自动化操作带来了新的可能。
在当今的数字化时代,GUI无处不在,无论是电脑、手机还是各种应用软件,都离不开GUI的交互。然而,传统的Agent在处理GUI界面时,往往需要将GUI界面转化为文本形式,再进行理解和操作,这不仅增加了处理的复杂度,还可能导致信息的丢失。因此,如何直接、高效地处理GUI界面,成为了人工智能领域亟待解决的问题。
CogAgent是一个通用的视觉理解大模型,它使用视觉模态(而非文本)对GUI界面进行更全面直接的感知,从而做出规划和决策。CogAgent可接受1120×1120的高分辨率图像输入,不仅提升了通用视觉理解能力,还具备强大的GUI Agent能力。
CogAgent可以应用于包括电脑、手机在内的各种场景。受益于GUI Agent的可泛化性,CogAgent能在各类没见过的场景与任务上都取得良好的性能。例如,在网页浏览场景中,CogAgent可以根据用户的指令自动找到并点击网页上的按钮或链接;在手机应用场景中,CogAgent可以模拟用户的滑动、点击等操作,实现自动化的应用测试或操作。
为了更好地促进多模态大模型、Agent社区的发展,研究者们已将CogAgent-18B开源至GitHub仓库(可商用),并提供了网页版Demo。这一举措不仅使得更多的开发者可以接触到CogAgent这一先进的技术,还促进了社区内的交流与合作,共同推动GUI Agent技术的发展。
在CogAgent的众多应用场景中,与千帆大模型开发与服务平台的结合无疑是一个值得期待的方向。千帆大模型开发与服务平台提供了丰富的模型开发、部署和管理工具,可以帮助开发者更加高效地利用CogAgent的能力。例如,开发者可以在千帆平台上对CogAgent进行微调,以适应特定的应用场景;同时,千帆平台还可以提供模型部署和监控的服务,确保CogAgent在实际应用中的稳定性和可靠性。
CogAgent的推出,标志着GUI Agent技术进入了一个新的发展阶段。它不仅解决了传统Agent在处理GUI界面时的局限性,还为GUI的自动化操作提供了新的可能。随着CogAgent技术的不断发展和完善,相信它将在更多的应用场景中发挥巨大的作用,为人工智能领域的发展贡献更多的力量。同时,我们也期待更多的开发者能够加入到CogAgent的社区中来,共同推动这一技术的发展和进步。