- 大模型项目实战:Agent开发与应用
- 高强文
- 1940字
- 2025-05-07 11:54:58
1.2 Agent的发展历程
1.2.1 Agent起源
Agent的概念和应用已发展了多年,由伴随人工智能出现的“智能实体”概念进化而来。其起源可以追溯到20世纪50年代,阿兰·图灵(Alan Turing)把“高度智能有机体”的概念扩展到了“人工智能实体”。图灵描绘的人工智能实体,能够使用传感器感知周围环境、做出决策和进行响应,被称为Agent。图灵还提出了著名的图灵测试[5],这是一个用于区分作答者是人类还是计算机的判断流程。在测试过程中,一名测试者写下自己的问题,随后将问题以纯文本的形式发送给另一个房间中的一个人与一台机器,测试者根据他们的回答来判断哪一个是真人、哪一个是机器。5min的测试时长,若计算机有超过30%的回答让测试者误认为是人类所答,则计算机通过图灵测试。
从加州大学圣迭戈分校Cameron R. Jones和Benjamin K. Bergen的论文“Does GPT-4 pass the Turing test?”可知,GPT-4通过率为49.7%,其表现优于ELIZA(22%)和GPT-3.5(20%),但仍低于人类参与者设定的基线66%[6]。近年来,大语言模型对Agent的发展起到了非常大的推动作用,图灵提出的理论和实践原理逐步变成了现实。
1.2.2 将Agent引入AI领域
由复旦大学NLP团队发表的论文《基于大语言模型的Agent兴起和潜力:一项调查》可知,在20世纪80年代,由于计算机科学和人工智能社区的兴起,人们对Agent这一主题的兴趣激增。Michael Wooldridge等人将Agent引入人工智能领域,奠定了AI Agent的理论基础。Wooldridge在2014—2018年担任过牛津大学的计算机科学系主任,曾参与开发阿尔法围棋机器人(AlphaGo)项目。他所专注的多智体系统(Multi-Agent System,MAS),是一种在单个环境中交互的多个智体组成的计算系统,属于分布式计算技术,自20世纪70年代出现以来迅速发展,目前已经成为一种进行复杂系统分析与模拟的思想、方法和工具。Wooldridge讨论了将Agent引入人工智能领域后的哲学层面问题,即Agent是否已拥有生物意义上的“心智”,还是从人类观察的角度来看,机器只是具备了一些自主性、反应性、主动性和社会能力等属性,而并非“真正”在思考问题。
搁置“Agent是否实际上在思考或真正拥有思想”的问题不谈,这些哲学领域的概念催生了一些Agent开发方法论,各种用于Agent与LLM交互的思考框架被广泛应用,且取得了良好的应用效果。
1.2.3 Agent技术进化与理论完善
2000年左右,伴随着人工智能的发展,Agent的理论与实践日趋成熟。根据Peter Norvig和Stuart Russell合著的《人工智能:一种现代方法》一书中的描述,Agent衍生出以下类别:
❍简单反射智体:依据当前感知(一次性或短期记忆)做出响应。
❍基于规则模型的智体:智体按照自身记录的状态和外部情况,按模型或规则工作。
❍基于目标任务的智体:依据目标任务,主动根据环境选择最佳策略来实现计划。
❍基于实用程序的智体:基于特定实用程序的最佳解决方案,智体的运行要取得最大化特定效用,如最大化利润和最小化能源消耗[7]。
❍学习型智体:从历史经验中学习,利用学习成果来自动行动和适应,包括学习元素、性能元素、批评者和问题生成器。
实际上,这种分类方法一直延续到现在,比如基于短期记忆的LLM对话应用应归为简单反射智体,基于长期记忆的MemGPT可归为基于规则模型的智体,任务驱动的BabyAGI归为基于目标任务的智体,基于实用程序的智体会反思(Self-refine)和逐步改进,学习型智体所强调的自学习理念广泛应用于ReAct[8]方法论中。
1.2.4 Agent的深度学习应用
2012年后,AI Agent应用了深度学习等人工智能技术,取得了很大的成就。AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌旗下DeepMind公司戴密斯·哈萨比斯领导的团队开发。其主要工作原理是“深度学习”。[9]。AlphaGo是一个Multi-Agent应用,Agent依靠自身的经历进行学习,通过“行动→评价”的机制从环境中获得新的知识,改进行动方案以适应环境变化。
1.2.5 基于LLM的Agent
2017年后,随着谷歌翻译团队的论文“Attention Is All You Need”[10]的发表和Transformer架构的盛行,大语言模型得到迅速的、革命性的发展。ChatGPT以及同类型产品的发布,更是将LLM应用带入了人们的生活中。
而LLM对AI Agent的发展起到了推波助澜的作用,基于GPT-4的AutoGPT、BabyAGI等开源Agent的发布在AI界掀起一股研究热潮。
AutoGPT称得上是一个划时代的产品。它的第一个版本发布于2023年4月12日,其愿景是让每个人都能使用和构建可访问的人工智能。AutoGPT是一个能自主迭代、自我提示、自主检索的Agent框架,只要进行一次任务的设定,Agent自己就能分解任务去完成。
BabyAGI是一段让人惊叹的程序,600多行代码中整合了大语言模型调用、提示词模板、向量库存取等技术。该应用可以自行拆解用户设定的任务目标,对子任务进行优先级排序和执行。经过多轮迭代,BabyAGI得出的结果往往远远超出用户的预期。
甲子光年发布的《2024年AI Agent行业报告》将Agent应用比作大模型时代的App。在大语言模型的支持下,AI Agent从理论到实践都取得了长足的发展,在一年多的时间内,Agent应用和Agent开发框架大量涌现,逐步从专用领域发展到多行业、多场景应用,从需要人类干预以保证其执行分支的可靠性,发展到越来越自主化的独立运转模式,正在朝更智能、更自主、更强的适应能力和学习改进能力方向发展。