logo
1

Agent 入门--初探人工智能中的“Agent”

一、什么是AI Agent(AI 智能体)

1.先说英文直译

Agent,英文直译过来是指代理人、经纪人、施事者等

2.再看专业解释

在国家官网术语在线查询,Agent是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。

3.最后,我理解的人工智能的Agent?

在人工智能中,Agent也称为智能体(Intelligent Agent),指的是一种能够感知环境、进行决策和行动的计算机程序或系统。换句话讲Agent是一种具有自主性、目标导向、学习能力和逻辑推理能力的软件实体。
它将大语言模型(LLM)进行封装,使得它可以通过用户的输入,理解用户的意图,自主理解、规划、执行复杂任务。可以将其类比为人类的“数字助理”,不仅能够输出信息,还能在必要时进行实际操作。

4.如今大火的AI Agent与传统智能助手相比,不同之处?

①现在的Agent会像更聪明的RPA(Robotic process automation / 机器人流程自动化),它可以不断成长,自己学习自己优化(学术一点是叫“泛化能力”强?)
②Agent的优化不受时间影响,无固定阈值,而且进化速度极快,有时候您甚至感觉不到它在进步;传统的智能助手或程序,或者是智能助手能力的提升是通过后端一次次迭代、更新版本,明确优化内容,完成一次软件or硬件的优化来进行的

二、GPT等的爆火为什么带动Agent的爆火?

一年后大模型热度不再只是学术研究,转为实际应用成为了焦点。但是GPT仍然处于问答阶段,真正进入生活场景例如智能客服、智能机器人等服务还有待加强。而Agent在此方面表现得更为出色,尤其是在任务执行、交互连贯性、目标导向性以及独立性等方面。同时,Agent还可以进行多种模式的交互,如语音、图像等,从而满足用户的多样化需求。具体表现在以下几方面:
  1. 任务执行能力:虽然GPT可以生成合理的文本,但对任务的执行能力有限。Agent可以接受任务并执行,通过任务目标来驱动行为,更加注重对具体任务的处理。
  2. 交互连贯性:由于上下文token字符的限制,在连续的对话中,GPT有时会出现上下文连贯性不足的问题。Agent可以通过记忆机制和任务目标,更好地理解和回应上下文信息,保持对话的连贯性。
  3. 目标导向性:GPT更注重文本的生成和理解,对于目标的把握可能不够准确。而Agent具有明确的目标导向性,可以更加聚焦于任务的完成。
  4. 自主性:Agent具有自主性,可以根据环境变化进行自我学习和调整。而GPT需要大规模的训练数据和计算资源,自主性相对较弱。
  5. 多模态交互:Agent可以结合多种媒体进行交互,如语音、图像等,而GPT主要关注文本生成和理解。多模态交互可以提供更加丰富和多样的交互方式,满足用户的不同需求,但目前多模态大模型也在陆续推出,随着大模型能力的进化。
Agent通常是一个自主的实体,可以根据环境进行感知、决策和行动,以达到预定的目标。GPT是一种基于Transformer结构的大规模语言模型,主要用于自然语言处理任务,如文本生成、问答、翻译等。Agent和GPT在应用上有所不同。Agent更适用于自动化和任务执行领域,而GPT更适用于自然语言处理和知识生成方面。在某些场景下,可以将Agent和GPT结合起来,利用GPT的能力生成自然语言文本,然后利用Agent进行任务执行或处理语言交互。例如,智能客服系统中可以利用GPT生成回答文本,然后结合Agent的对话管理功能实现更自然和智能的对话交互。

三、Agent是如何工作(如何落地应用)的-以智能外卖Agent为例

这个类型的Agent是一个软件,载体可以是一个网页,也可以在某个端侧:手机端、各类语音问答机器人、车机端的智能座舱助手等,以下我们举一个可以自动帮用户点外卖的智能外卖Agent的实现路径:

智能外卖Agent功能


可以实现的功能举例--当你说“帮我点一份黄焖鸡米饭”,Agent将理解为点餐指令,进而自动实现下单与支付等动作。在此期间,Agent可能会询问订单来源方向等信息(例如你想吃哪家黄焖鸡?想送到哪里去?想用什么付款等等?),并通过灵活应对来帮助您顺利下单。

智能外卖Agent技术支撑

自然语言处理(NLP)
为了让这个智能外卖Agent能够理解你的指令,你需要使用NLP技术。这可能包括文本分类、实体识别、意图识别等。
自动化控制
智能外卖Agent自动完成下单等操作时,可能需要使用自动化控制技术,如模拟鼠标和键盘操作、调用API等。
机器学习和优化
随着时间的推移,智能外卖Agent可能会遇到越来越多的问题和错误。为了提高其性能和准确性,你可以使用机器学习技术来训练和优化它。例如,你可以使用强化学习来训练一个下单策略,使得Agent能够根据历史数据自动选择菜品和下单。

智能外卖Agent前后期工程化准备

前期工程化准备:
自己的需求分析和设计--Agent之后会演变为个人助理类的伙伴,在做一个智能外卖Agent时,你需要明确自己的个人需求,比如你平时习惯在哪个平台(美团or饿了么......)上点外卖,以及你希望Agent具备哪些功能(如自动下单、自动支付、选择菜品等),同时设计完善适应各种功能的系统架构。
数据收集与处理---取得包括菜名、价格、配送地址及支付方法在内的各类相关数据。针对此过程,可能需依赖于爬虫技术从外卖平台获取信息。
后期工程化准备
机器学习和优化--随着时间的推移,Agent可能会遇到越来越多的问题和错误。为了提高其性能和准确性,你可以使用机器学习技术来训练和优化它。例如,你可以使用强化学习来训练一个下单策略,使得Agent能够根据历史数据自动选择菜品和下单。
测试和部署--在实现上述功能后,你需要进行详细的测试,以确保Agent的稳定性和安全性。一旦你满意,你可以将其部署到实际环境中,以便日常使用。
持续优化和改进--定期审查Agent的表现,依反馈及数据持续进行调试与改良。这可能囊括数据采集、模型训练、系统升级等诸多层面。

四、目前Agent有哪些

国外

下面是E2B列出的AI agents全景图,从上至下的分类为编码(coding),生产效率提升(productivity),通用产品(general-purpose),设计产品(design),科学产品(science),自建agent工具链产品(build your own)

国内

飞书智能AI助手“MyAI”、搭载文心大模型的百度如流等用于办公场景的AI Agent陆续上线,网易有道基于“子曰”2.0,网易有道推出了首位AI家庭教师小P老师及虚拟人口语私教Hi Echo。

五、总结:2024大模型前景预测中关于Agent部分(持续更新吧)

咨询机构类

IDC:所有企业都认为AI Agent是AIGC发展的确定性方向;同时,50%的企业已经在某项工作中进行了AI Agent的试点,另有50%的企业正在制定AI Agent的应用计划。


微信公众号类


甲子光年:如果大模型是未来水电煤一般的基础设施,那么 Agent 则是未来用户接触、使用 AI 的方式。Agent 将会成为大模型在 to B 场景落地的主要方式之一。
AI大模型工场:每逢大模型的相关发布会,必会出现“Agent”。Agent 概念爆火,虽然直到现在也没有看到标杆性的产品,但是几乎所有企业都认为AI Agent是AIGC发展的确定性方向。mp.weixin.qq.com

名人

周鸿祎:
Agent智能体激发大模型潜能,成为超级生产力工具---大模型一定要结合智能体框架,才能真正长出“手跟脚”,跟企业的业务系统、跟整个互联网充分打通。没有Agent框架,大模型几乎不能投入使用。
其他关于AI的2024预测可以看下https://mp.weixin.qq.com/s/MBePNHQyOz8Ye3zVkINn9w
引用(关注后私信发你原文哦~):
[1]《2024AIGC应用层十大趋势》IDC&钉钉联合出品
评论
用户头像