自主规划Agent:开发AI手机实战,让手机开启「自动驾驶」
整体概述
基于大模型开发的Al手机不仅改变了传统的人机交互方式,还赋予手机全新的智能应用价值。它不仅仅是信息检索和执行命令的工具,更是一位拥有理解和决策能力的智能助理。与传统交互方式不同,基于大模型开发的Al手机能够从用户简单的语音输入中获取上下文、分析偏好,并动态适应各种生活场景,从而提供高度个性化的响应。这种深层次的理解与反应能力,赋予Al手机前所未有的灵活性和自主性,使得从点餐、预订住宿到购物等各类操作流畅无缝地进行。它不仅节省了时间和精力,更通过智能辅助帮助用户高效管理生活,实现了技术为生活赋能的理念。 以肯德基点餐助手为例,这款AI手机上的应用让用户只需一句话即可完成从菜单获取到订单提交的整个流程,并能将订单信息发送至指定微信群中。这样的智能助手真正实现了高度集成化与一站式服务,为用户带来前所未有的便捷体验。
搭建思路
用户通过query触发大模型进行思考,选择调用组件完成指定功能。以点餐助手组件为例,云端接收Agent参数后,手机页面会进行模拟操作,完成餐品下单并截图,对截图内容进行多模态理解,将处理结果上报给Agent。根据用户query完成对应组件调用并实现制定功能后,将结果输出以提示用户功能完成。
步骤一:创建自主规划Agent
1.登陆百度智能云千帆AppBuilder平台 2.点击免费试用,打开主页 3.点击创建自主规划Agent,进入应用配置页面
步骤二:完成Agent配置
1.应用配置填写Agent的基本信息 从角色任务、工具能力、结果校验、需要注意的常识四个方面编写角色指令,精确设定agent的作用范围。 2.添加组件: a)获取菜单组件:包含开始、代码、API、结束节点。通过代码节点处理原始query。API节点将获取菜单功能注册为组件。通过调用获取菜单组件,可以获取KFC当前的菜单和对应的价格。 b)点餐助手组件:包含开始、代码、API、结束节点。通过代码节点处理预订的餐品的名称、预订的餐品的数量以及对于对应餐品的特殊要求。API节点将点餐功能注册为组件。通过调用点餐组件,可以将需要预订的菜品下发至手机进行预订。 c)微信消息发送:包含开始、代码、API、结束节点。通过代码节点处理发送的信息和信息接收者。API节点将微信发送信息功能注册为组件。通过调用微信消息发送组件,用终端微信APP将需发送的消息发送给对应的信息接收者。
步骤三:搭建手机助手
大模型根据用户query思考后调用相应组件,超级手机助手启动对应手机端APP,完成用户指定功能。因此超级手机助手主要需具备三个功能: 1.启动APP:调用APP开放的的预设Scheme,实现对应APP启动功能。 2.模拟点击:通过Android无障碍功能完成模拟点击、滑动以及文本输入。 3.获取信息:通过无障碍功能获取页面DOM结构后,采用截图+多模态大模型/OCR小模型获取图片信息。
应用调试
完成Agent及手机助手的搭建后,在肯德基点餐助手调试框中输入指令,并开启超级手机助手,即可控制手机进行点单服务,完成调试。 举例说明:在KFC点餐助手中提问“请帮我点两杯可乐”。大模型会进入思考模型,明确用户点餐需求。调用获取菜单组件,完成KFC菜单获取。随后调用点餐助手组件,按照用户需求完成对应菜品的下单。与此同时,安装了超级手机助手APP的手机会自动打开肯德基APP,并完成对应菜品的下单,并跳转到支付界面。用户可通过输入支付密码,完成点餐服务。
应用集成
为了使用户体验到大模型在手机端带来的便捷服务,满足移动互联网时代对智能化服务的日益增长的需求,我们可以将更多Agent应用集成到手机端。通过语音输入,用户将能够轻松实现一系列操作,如在淘宝进行购物、浏览小红书上的经验分享、通过携程预订住宿等。不仅如此,这些智能助手还能够根据用户的历史行为和偏好,提供个性化推荐,如智能规划旅行路线、推荐美食餐厅、自动管理日程安排等,极大地提升用户在移动互联网时代的生活质量和工作效率。 此外,这些集成的Agent应用还能够实现跨平台数据同步,确保用户在不同设备间享有无缝衔接的智能服务体验。随着技术的不断进步,未来我们甚至可以预见到,通过这些智能助手,用户将能够实现与智能家居设备的联动控制,实现真正的万物互联,让生活更加智能化、便捷化。 我们仍以肯德基点餐助手为例,演示如何通过手机端实现Agent应用。 1.在手机中打开超级手机助手,长按右下角话筒,语音输入下单要求“请帮我点两杯可乐,并把点餐信息发到百度世界大会工作群”。 2.点餐助手在明确点餐任务后跳转到肯德基APP进行下单,并跳转到支付界面。随后调用微信消息发送组件,将点餐信息发送到对应的群聊中,完成功能实现。