Agent 入门--初探人工智能中的“Agent”

AI原生应用开发/技术交流

LLM
插件应用

1月15日2798看过

一、什么是AI Agent（AI 智能体）

1.先说英文直译

Agent,英文直译过来是指代理人、经纪人、施事者等

2.再看专业解释

在国家官网术语在线查询，Agent是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。

3.最后，我理解的人工智能的Agent？

在人工智能中，Agent也称为智能体（Intelligent Agent），指的是一种能够感知环境、进行决策和行动的计算机程序或系统。换句话讲Agent是一种具有自主性、目标导向、学习能力和逻辑推理能力的软件实体。
它将大语言模型（LLM）进行封装，使得它可以通过用户的输入，理解用户的意图，自主理解、规划、执行复杂任务。可以将其类比为人类的“数字助理”，不仅能够输出信息，还能在必要时进行实际操作。

4.如今大火的AI Agent与传统智能助手相比，不同之处？

①现在的Agent会像更聪明的RPA(Robotic process automation / 机器人流程自动化)，它可以不断成长，自己学习自己优化（学术一点是叫“泛化能力”强？）
②Agent的优化不受时间影响，无固定阈值，而且进化速度极快，有时候您甚至感觉不到它在进步；传统的智能助手或程序，或者是智能助手能力的提升是通过后端一次次迭代、更新版本，明确优化内容，完成一次软件or硬件的优化来进行的

二、GPT等的爆火为什么带动Agent的爆火？

一年后大模型热度不再只是学术研究，转为实际应用成为了焦点。但是GPT仍然处于问答阶段，真正进入生活场景例如智能客服、智能机器人等服务还有待加强。而Agent在此方面表现得更为出色，尤其是在任务执行、交互连贯性、目标导向性以及独立性等方面。同时，Agent还可以进行多种模式的交互，如语音、图像等，从而满足用户的多样化需求。具体表现在以下几方面：

任务执行能力：虽然GPT可以生成合理的文本，但对任务的执行能力有限。Agent可以接受任务并执行，通过任务目标来驱动行为，更加注重对具体任务的处理。
交互连贯性：由于上下文token字符的限制，在连续的对话中，GPT有时会出现上下文连贯性不足的问题。Agent可以通过记忆机制和任务目标，更好地理解和回应上下文信息，保持对话的连贯性。
目标导向性：GPT更注重文本的生成和理解，对于目标的把握可能不够准确。而Agent具有明确的目标导向性，可以更加聚焦于任务的完成。
自主性：Agent具有自主性，可以根据环境变化进行自我学习和调整。而GPT需要大规模的训练数据和计算资源，自主性相对较弱。
多模态交互：Agent可以结合多种媒体进行交互，如语音、图像等，而GPT主要关注文本生成和理解。多模态交互可以提供更加丰富和多样的交互方式，满足用户的不同需求，但目前多模态大模型也在陆续推出，随着大模型能力的进化。

Agent通常是一个自主的实体，可以根据环境进行感知、决策和行动，以达到预定的目标。GPT是一种基于Transformer结构的大规模语言模型，主要用于自然语言处理任务，如文本生成、问答、翻译等。Agent和GPT在应用上有所不同。Agent更适用于自动化和任务执行领域，而GPT更适用于自然语言处理和知识生成方面。在某些场景下，可以将Agent和GPT结合起来，利用GPT的能力生成自然语言文本，然后利用Agent进行任务执行或处理语言交互。例如，智能客服系统中可以利用GPT生成回答文本，然后结合Agent的对话管理功能实现更自然和智能的对话交互。

三、Agent是如何工作（如何落地应用）的-以智能外卖Agent为例

这个类型的Agent是一个软件，载体可以是一个网页，也可以在某个端侧：手机端、各类语音问答机器人、车机端的智能座舱助手等，以下我们举一个可以自动帮用户点外卖的智能外卖Agent的实现路径：

智能外卖Agent功能

可以实现的功能举例--当你说“帮我点一份黄焖鸡米饭”，Agent将理解为点餐指令，进而自动实现下单与支付等动作。在此期间，Agent可能会询问订单来源方向等信息（例如你想吃哪家黄焖鸡？想送到哪里去？想用什么付款等等？），并通过灵活应对来帮助您顺利下单。

智能外卖Agent技术支撑

自然语言处理（NLP）
为了让这个智能外卖Agent能够理解你的指令，你需要使用NLP技术。这可能包括文本分类、实体识别、意图识别等。
自动化控制
智能外卖Agent自动完成下单等操作时，可能需要使用自动化控制技术，如模拟鼠标和键盘操作、调用API等。
机器学习和优化
随着时间的推移，智能外卖Agent可能会遇到越来越多的问题和错误。为了提高其性能和准确性，你可以使用机器学习技术来训练和优化它。例如，你可以使用强化学习来训练一个下单策略，使得Agent能够根据历史数据自动选择菜品和下单。

智能外卖Agent前后期工程化准备

前期工程化准备：
自己的需求分析和设计--Agent之后会演变为个人助理类的伙伴，在做一个智能外卖Agent时，你需要明确自己的个人需求，比如你平时习惯在哪个平台（美团or饿了么......）上点外卖，以及你希望Agent具备哪些功能（如自动下单、自动支付、选择菜品等），同时设计完善适应各种功能的系统架构。
数据收集与处理---取得包括菜名、价格、配送地址及支付方法在内的各类相关数据。针对此过程，可能需依赖于爬虫技术从外卖平台获取信息。
后期工程化准备
机器学习和优化--随着时间的推移，Agent可能会遇到越来越多的问题和错误。为了提高其性能和准确性，你可以使用机器学习技术来训练和优化它。例如，你可以使用强化学习来训练一个下单策略，使得Agent能够根据历史数据自动选择菜品和下单。
测试和部署--在实现上述功能后，你需要进行详细的测试，以确保Agent的稳定性和安全性。一旦你满意，你可以将其部署到实际环境中，以便日常使用。
持续优化和改进--定期审查Agent的表现，依反馈及数据持续进行调试与改良。这可能囊括数据采集、模型训练、系统升级等诸多层面。

四、目前Agent有哪些

国外

下面是E2B列出的AI agents全景图，从上至下的分类为编码（coding），生产效率提升（productivity），通用产品（general-purpose），设计产品（design），科学产品（science），自建agent工具链产品（build your own）

国内

飞书智能AI助手“MyAI”、搭载文心大模型的百度如流等用于办公场景的AI Agent陆续上线，网易有道基于“子曰”2.0，网易有道推出了首位AI家庭教师小P老师及虚拟人口语私教Hi Echo。

五、总结：2024大模型前景预测中关于Agent部分（持续更新吧）

咨询机构类

IDC：所有企业都认为AI Agent是AIGC发展的确定性方向；同时，50%的企业已经在某项工作中进行了AI Agent的试点，另有50%的企业正在制定AI Agent的应用计划。

微信公众号类

甲子光年：如果大模型是未来水电煤一般的基础设施，那么 Agent 则是未来用户接触、使用 AI 的方式。Agent 将会成为大模型在 to B 场景落地的主要方式之一。
AI大模型工场：每逢大模型的相关发布会，必会出现“Agent”。Agent 概念爆火，虽然直到现在也没有看到标杆性的产品，但是几乎所有企业都认为AI Agent是AIGC发展的确定性方向。mp.weixin.qq.com

名人

周鸿祎：
Agent智能体激发大模型潜能，成为超级生产力工具---大模型一定要结合智能体框架，才能真正长出“手跟脚”，跟企业的业务系统、跟整个互联网充分打通。没有Agent框架，大模型几乎不能投入使用。
其他关于AI的2024预测可以看下https://mp.weixin.qq.com/s/MBePNHQyOz8Ye3zVkINn9w

引用（关注后私信发你原文哦~）：
[1]《2024AIGC应用层十大趋势》IDC&钉钉联合出品