专栏观察

智能体最新动向、技术进展、研报下载,附12篇AI Agent论文和研报

 

  • 智能体行业10月最新动态,附10篇行业论文和2篇AI Agent行业研报
  • 智能体行业近况如何?一篇文章了解AI Agent最新动向
  • 智能体10月行业动态:最新动向、观点认知、技术进展、部署案例、研报下载
  • LangChain最新AI Agent报告,《State of AI Agents》解密智能体行业状态
  • 《AI Agents: Research & Applications》40页报告,探讨AI Agent兴起、架构和应用

全文约6500字,阅读时间8分钟
文/王吉伟

最近1个月,关于AI Agent(智能体)的声量明显高了几个level。

媒体与券商的各种行业解读,一众大佬与名人的站台,加上几个产品的快速出圈,智能体概念在二级市场迅速火了。与智能体相关的概念股越来越多,研究智能体的股民也越来越多,瞄准受众的行业研报自然也就水涨船高。

智能体在二级市场火起来,意味着上市企业只要关联上智能体相关概念股价就会涨起来,更意味着股民们只要把AI Agent研究透了选好了股票就能通过智能体挣钱。

买智能体股票挣钱的方式似乎行业发展的必备前置智能体商业培训更容易,只要关注相关新闻、研报以及各种荐股信息,选对了股票可能只需一个涨停就够挣办培训很长时间的。

 

当然这个说法只是猜测,毕竟培训也能挣大钱,毕竟股市有风险,最近的智能体概念也是有涨有跌的。在二级市场,小公司忙着关联概念,大公司包括已具规模的技术性创业公司有意无意间就创造了概念,于是大家就能看到诸多关联概念。

是不是真正在搞智能体,只要分析一下就能了然。但不管股市如何起伏,真真正正用技术在做智能体的企业,只要能帮助广大客户持续提升生产力及客户体验,必然能在一波智能体红利中分一杯羹。

还有一点可能会被大家忽视,那就是这一波智能体的爆火并不只是因为火力全开的炒作,还在于它已经形成了产品和解决方案能够落地到实处,这也是其与当年元宇宙概念的最大区别。当然,元宇宙已经开始借助智能体进化,去中心化与加密领域已是智能体应用爆发的重头,这一点后文会提及。

所以技术实力雄厚的大型科技企业自然会冲到前面,快速完善智能体生态,都在马不停蹄地进行相关技术及产品的研发。比如微软,在这个月又推出了多个智能体下项目,并且构建了全球最大的AI智能体生态系统,已有超过10万家公司使用Copilot Studio创建了AI智能体。谷歌云也宣布全面推广商用AI Agent,为用户提供一站式服务。

 

微软、谷歌等大型科技公司对智能体技术的研发和应用,构成了当前智能体行业规模拓展的主旋律。而为了解决AI Agent技术遇到的各种问题和解决其在各领域的应用障碍,各科研机构与实验室也是在不断推出各种论文与相关项目。本月已被报道的项目,本文会在第三部分提及。

关于大家最感兴趣的行业研报,本文也在文末介绍了及几篇并附上了部分资源。重点推荐LangChain发布的《State of AI Agents》报告,该报告调查了1300多位专业人士,探讨了AI Agent的采用趋势、主要用例、挑战以及未来发展方向。

后台发消息 11.28 ,获取10篇论文及2篇研报资源。

 

10月智能体行业动向

先来看看最近一个月的行业动向。

AI Agent技术的发展带来了一系列创新工具和平台,推动了数据分析、企业自动化、编程等的一系列革命。

看智能体的行业动向,首先把目光聚焦大型科技公司。

谷歌云宣布全面推广商用AI Agent,提供一站式服务,简化了客户的选择和部署流程,并为新客户提供了300美元的免费信用额度。

预计到2025年,AI Agent的商用将进入爆发期。谷歌云推出了人工智能Agent合作伙伴计划,促进生成式AI技术的销售和客户采用,支持合作伙伴加速AI Agent开发。不久前,还有消息传出谷歌正在为安卓16系统开发一个名为Gemini的全新API,旨在使Gemini成为手机上的AI智能体,以实现对Pixel 4的Google Assistant的承诺。

微软构建了全球最大的AI智能体生态系统,超过10万家公司使用Copilot Studio创建了自己的AI智能体。微软将允许企业通过这些智能体随意挑选Azure目录所提供的1800种大语言模型(LLM),这些智能体能够检测事件并协调复杂工作流程,提升企业自动化和生产力。

NVIDIA推出了NVIDIA AI Blueprint,这是一个用于开发视觉AI Agent的新工具,帮助行业通过分析视频和图像提升工作效率和监控效率,推动AI应用的部署。

 

OpenAI计划推出“Operator”,一个能执行复杂操作的AI Agent产品,预计将在2025年1月发布,进一步扩大AI Agent的应用范围。

ElevenLabs在其开发者平台上新增了创建对话式AI Agent的功能,允许自定义语音风格、响应长度等,提供个性化的角色设计和知识库支持,为对话系统应用开辟了新的可能性。

法国AI公司H发布了Runner H和Studio平台,专注于企业自动化和开发者工具。Runner H基于紧凑型大语言模型,适用于RPA、QA和BPO场景,而Studio平台则帮助开发者构建和管理大规模生产级自动化解决方案。

最近,基于Visual Studio Code的编程工具Cursor,通过其AI智能体功能,实现了编码自动化,极大提升了开发效率。用户只需简单提示,即可快速生成完整的网页应用。

在国内,华为诺亚方舟实验室联合伦敦大学学院团队推出了Agent K v1.0,一个端到端自主数据科学智能体,能够自动化数据科学流程,优化决策。无代码工具“秒哒”,这是一个集无代码编程、多智能体协作和多工具调用三大核心功能于一体的多智能体协作工具。

 

同时联想也放出消息将于 11 月 28 日推出业内首个面向中小企业的 IT 服务智能体,致力于以大模型和智能体技术,加速中小企业智能化转型。

要说巨头们的频频动作,确实让大家感受到了智能体的火热来袭。但大家可能想不到,智能体在web3、去中心化、加密领域会爆发得如此之快。

近期,AI代币和AI Agent在加密货币领域引起了广泛关注,特别是在Base生态中。Vitalik和Jesse购买Base生态的AI代币ANON,引发了AI代币热潮。Crypto AI项目从AI+DePIN、算力租赁等概念发展到AI Bot代币GOAT和AI16Z的AI投资DAO模式。AI Agent具备工具和推理能力,在加密货币领域能执行链上交易等操作。Virtual Protocol作为AI工厂,其代币VIRTUAL市值接近5亿美元。

AgentLayer公司积极投身于AI Agent领域,推出了名为“We Agent”的活动,标志着公司新阶段的开始和对创新及社区参与的承诺。

AI16z作为全球首家由AI Agent人运营的风投机构,近期与Ryze Labs合作启动AICombinator计划,并设立500万美元基金支持AI16z生态系统发展。

 

DeSci概念近期大火,市场上对其有较高期待。Virtuals Protocol旨在为游戏和娱乐领域的AI Agents构建所有权层,专注于投资其他AI Agent。Virtuals平台通过创建一个互联的AI Agent生态系统,重新定义了AI Agent的概念。

这些Agent不仅能够自主交易、创造和互动,还推动了去中心化经济的发展。平台通过启动计划和通信协议降低了技术门槛,吸引了创新,使得Agent之间可以自主互动,无需人类预先编程或策划。

去中心化AI网络REVOX推出了Web3 AI Agent开发平台REVOX Studio,向开发者提供易用的AI+Web3开发工具。平台将重点支持在Web3领域内AI Agent的探索,包括自主资产发行,智能支付,智能投资规划等。REVOX Studio为开发者提供了插件化的构建方式,包括智能合约执行,链上和链下数据检索,大模型链上调用等模块。

目前,包括Pancake,Owlto,KiloEx等协议已经接入REVOX Studio并支持AI调用。同时,REVOX Studio开放了Agent Marketplace,帮助开发者获取用户。

专家学者的观点与看法

近期,多位行业专家和企业家对人工智能的未来发展进行了深入探讨,特别是AI Agent(智能体)技术的前景。

中国工程院院士邬贺铨提出,AI正从模型层走向智能体,这些智能体具备记忆、规划、工具和行动能力,能够代替人完成一些任务,并在多个领域赋予通用AI能力。他认为,尽管具身智能发展迅速,但并不等同于通用人工智能(AGI)的到来。邬贺铨还强调了大模型落地的重要性,指出这不仅需要上云,还需要下沉到智能终端,以促进终端设备的更新迭代和新型现代服务业的发展。

Salesforce的CEO Marc Benioff也表达了对AI智能体的看好,认为它们将取代大型语言模型(LLM),成为AI的未来。他指出,自主Agent能独立完成销售沟通和营销等任务,对企业的重要性更大。同时,他也警告说,公众对AI智能体的认知多来自影视作品,但现实中AI的能力被一些人夸大,误导了用户。

 

百度创始人李彦宏和YC合伙人Jared等资深投资人也对AI Agent的前景表示乐观,认为其市场规模可能比SaaS大10倍,甚至可能催生市值超过3000亿美元的科技巨头。他们认为,LLM技术的进步为AI Agent的发展奠定了基础,使其能够在各个垂直领域展现强大实力,替代人工操作、提升效率,并可能改变企业的用人模式,减少对人力的依赖。

OpenAI的CEO Sam Altman在讨论公司的未来方向时,强调提升AI的推理能力是核心战略。他提到,AI创业应构建能随着模型进步而受益的业务,并认为系统而非模型是AI发展的未来。OpenAI计划推出无代码工具,以提升程序员效率并最终实现无代码创建初创公司的目标。Altman还提到,AI将创造巨大价值,尤其在医疗和教育领域。

 

在硅星人首届AI创造者大会(ACC 2024)上,来也科技联合创始人胡一川、实在智能创始人&CEO孙林君、汇智智能创始人&CEO孙志明、澜码科技创始人&CEO周健五位AI Agent领域的先行者探讨了AI Agent如何从学术概念转变为驱动企业增长的工具。他们讨论了Agent的本质定义、大模型带来的新机遇以及To B与To C的商业化路径,揭示了AI Agent的发展现状与未来可能。

AI Agent独角兽Sierra CEO认为,当前AI市场虽然存在泡沫现象,但未来将孕育出市值巨大的企业。对话式AI和多模态AI技术将成为品牌与消费者互动的主要方式,提升用户体验。AI初创公司面临技术、市场、资金和合规性挑战,但创新和敏捷的公司有机会成功。

更多知名人士及企业家表态,使得AI Agent技术进一步受到各界的广泛关注,其在多个领域的应用前景被普遍看好,预计将带来巨大的市场规模和商业价值。

再来聊聊智能体的技术进展

人工智能领域的研究和发展呈现出多元化和深入的趋势,特别是在智能体的通信、预测人类行为、零样本解决任务、研发能力比较等方面取得了显著进展。

牛津大学的研究团队提出了名为Agora的元协议,旨在解决大型语言模型(LLM)之间的通信问题,以构建世界级的LLM智能体网络。在Agora中,智能体可以支持广泛的通信(高通用性),同时也能通过高效的例程处理总请求量中的大部分(高效率)。整个协商和实现工作流程都由LLM处理,无需人类干预(高可移植性)。该团队在两个场景中演示了Agora的效果,并进行了成本分析,结果显示Agora的成本效益远高于仅依赖自然语言的网络。

论文标题:A Scalable Communication Protocol for Networks of Large Language Models

论文地址:https://arxiv.org/pdf/2410.11905

在零样本解决任务方面,牛津大学的研究者提出了一种名为Kinetix的框架,用于在广泛的2D物理环境中训练通用智能体。研究者发现,在这些环境中训练的强化学习(RL)智能体能够理解一般机械特性,并零样本地解决未见过的手工环境。此外,通过在特定困难环境中微调该通用智能体,可以显著减少学习特定任务所需的样本数量。

论文标题:Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

论文地址:https://arxiv.org/pdf/2410.23208

项目主页:https://kinetix-env.github.io

在AI研发能力方面,最新的研究表明,在2小时的研发任务中,AI智能体如Claude 3.5 Sonnet和o1-preview在7项挑战性研究工程中击败了50多名人类专家,显示出AI在研发领域的快速进步。AI编程速度能以超越人类10倍的速度生成并测试各种方案,例如在优化前缀和运算任务中,o1-preview的表现甚至超越了最优秀的人类专家。

论文地址:

https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/

受美国汽车工程师学会(SAE)提出的自动驾驶六个级别的启发,论文《Levels of AI Agents: from Rules to Large Language Models》中,将AI智能体按效用和强度分为五个级别(L0到L5)。每个级别对应不同的技术手段、性能、能力、关键特性和应用场景,从无AI的工具到超人类智能的AI,逐步展示了AI从简单任务自动化到复杂自主学习系统的演进。

 

论文标题:《Levels of AI Agents: from Rules to Large Language Models》

论文链接:https://arxiv.org/pdf/2405.06643

在智能体社会的探索方面,斯坦福大学、华盛顿大学和Google DeepMind的研究人员共同开发了一种AI智能体-genagents,能够模拟人类行为并用于验证经济学、社会学、组织学和政治科学的理论。该AI智能体基于1000多名具有代表性的美国人的访谈数据建立,通过结合GPT-4o模型和访谈记录来模仿受访者的回答。

 

项目地址:https://github.com/joonspk-research/genagents

论文地址:https://arxiv.org/abs/2411.10109

上海交通大学则与牛津大学联合提出的一种基于多智能体模拟的数据合成方法,用于提升大语言模型(LLMs)的性能。研究团队开发了由1000多个智能体组成AI社会模拟器MATRIX,通过模拟人类社会中的场景,生成多样且真实的训练数据。具体方法包括构建AI模拟社会、生成符合任务需求的训练数据,并通过监督微调(SFT)和偏好优化(DPO)对模型进行微调。

论文链接:https://arxiv.org/pdf/2410.14251

代码主页:https://github.com/ShuoTang123/MATRIX-Gen

微软在本月推出了用于多AI智能体协同完成复杂任务的AI智能体协调系统Magentic-One和多智能体人格模拟工具TinyTroupe。前者,旨在通过协调多个专用AI智能体来高效处理复杂工作流程,后者能够模拟具备特定性格、兴趣和目标的虚拟角色,从而为企业在商业决策和市场研究方面提供全新的视角。

 

项目:

https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

项目:https://github.com/microsoft/TinyTroupe

此外,微软还在本月上旬推出了Xbox AI智能体,能够以聊天方式高效解答玩家游戏问题。

对论文感兴趣的小伙伴,后台发消息 11.28 获取资源。当然本月被报道的论文与项目远不只这些,大家可以到知识库具体了解。

几个智能体应用部署案例

随着AI Agent的逐步普及,关于AI Agent的部署与应用也被更多的讨论。这里列举的几个案例,涉及容器化部署、个性化开发、SRE团队支持、快速构建集成方案以及去中心化框架等多个方面。

1、容器化AI Agent开发

使用watsonx.ai和CrewAI平台,结合Streamlit和Podman技术,开发者可以构建并部署容器化的AI Agent。这些Agent能够执行复杂的任务,如市场分析、技术评估和商业模式评估,并通过Streamlit UI展示处理过程。这种方法允许将AI Agent作为无服务器应用程序部署在环境中,如IBM Code Engine。

2、自定义开发人员工作流的AI Agent扩展

Goose是一个开源AI开发Agent,允许用户通过创建工具包来扩展其功能,适应特定的开发工作流。用户可以自定义工具包,如待办事项列表管理器,并与GitHub CLI等工具集成。Goose社区鼓励开发者贡献代码和内容,共同推动AI Agent的发展。

 

3、为SRE团队构建AI Agent

Aptible AI团队分享了构建AI Agent的详细步骤,旨在帮助SRE团队解决生产问题。这些步骤包括在Chainlit中设置Agent、连接LLM、加速Agent、赋予Agent个性、集成文件搜索和外部工具等。该指南提供了关于构建AI Agent的注意事项、专业提示和实践经验。

4、快速构建和集成智能体的MVP解决方案

人人都是产品经理上的作者长弓PM,发表了一篇名为《10分钟,完成「Agent构建」和「产品集成」》的文章,介绍了如何快速构建和集成个性化智能体(Agent)的方法。文章从需求分析、产品方案设计、技术方案实现到产品上线发布,详细阐述了整个项目流程,并提供了一套高效、极简的智能体MVP解决方案,帮助读者在10分钟内完成Agent构建和产品集成。

在智能体开发方面,思路值得借鉴。

 

5、打造去中心化 AI Agent 的核心框架

Virtuals Protocol是一个框架,用于实现AI Agent的创建、所有权和增长。它包括创建代币化的AI Agent、让代币持有者从AI Agent产生的收入中获益、激励无许可的贡献以及通过社交媒体渠道扩大AI Agent的影响力。

Virtuals Protocol的核心是AgentFactoryV3智能合约,包括Agent代币、NFT、AgentveToken、DAO和绑定账户等组件。该框架允许用户通过贡献模型、数据或其他资源分享成功收益,并确保即使服务器离线,AI Agent仍可运行。

对于几个案例的具体内容,大家可以到知识库去查看,每个案例都附上了原文链接。如果涉及推特等外网的文章大家看不了,可以告诉我会把文章下载成文档分享给大家。

大家感兴趣的研究报告

最后,再来看几篇研报。

国际数据公司(IDC)预测,到2028年中国生成式AI软件市场规模将达到35.4亿美元。IDC在其技术评估报告中强调,企业在扩展生成式AI应用时需要统一的AI开发平台,以实现数据、模型和应用的统一管理。这类平台应具备数据准备、模型调优、RAG/Prompt支持、模型部署及应用安全等基本能力。随着大模型基础能力的提升和应用形式的创新,大模型平台将分化为底层平台和智能体开发平台,分别与企业数据分析和机器学习开发平台整合,以及朝低代码无代码方向发展。

 

美国风险投资公司Menlo Ventures的报告指出,2024年企业在生成式AI的支出增长了500%,达到138亿美元,显示AI技术在企业转型升级中的重要性。市场份额方面,OpenAI市场份额下滑,而Anthropic市场份额翻倍。企业趋向于采用多种AI大模型,闭源解决方案占主导地位。生成式AI的应用领域正在向医疗、法律、金融服务等行业拓展,其中代码生成是核心应用。AI Agent架构成为新的投资热点,有望为企业带来更高效的运营和优质服务。

LangChain的《State of AI Agents》报告调查了1300多位专业人士,探讨了AI Agent的采用趋势、主要用例、挑战以及未来发展方向。报告显示,51%的受访者正在生产中使用AI Agent,78%计划在未来实施AI Agent。AI Agent主要应用于研究、总结、个人生产力、客户服务和自动化。性能质量是部署AI Agent的主要挑战,其次是成本和安全。许多公司使用控制措施来限制AI Agent的权限。

 

另一份40页的报告《AI Agents: Research & Applications》探讨了AI Agent的兴起、架构和应用,特别关注基于大型语言模型(LLM)的Agent。文章分析了Agent的能动性演变、自主Agent的前景、AI Agent架构基础,以及Agent研究的最新趋势。同时,讨论了多Agent架构、基准测试、评估以及AI Agent在游戏、治理、科学、机器人技术等领域的影响和应用。

 

Binance Research的报告探讨了AI Agent在加密货币领域的应用和未来发展。AI Agent能够自主规划和执行任务,与传统互联网机器人相比,它们能进行动态决策、调整行为,并与其他Agent和协议交互。报告中提到了AI Agent的几个关键案例,包括Terminal of Truths (ToT) 和$GOAT代币,Virtuals Protocol平台,以及Daos.fun的AI Agent主导的对冲基金。

这几份报告,关注LangChain的《State of AI Agents》和《AI Agents:Research & Applications》两份报告的比较多。因为网上没有看到相关资源,就找了一下。这里提供了两份报告的原文链接以及中英文PDF文档,感兴趣的小伙伴可以到知识库查看或者直接回复 11.28 获取下载链接。

关于本文提及内容的具体详情,感兴趣的朋友可以去知识库「AI Agent研习社」参考详细内容,无需额外搜索查找。

知识库链接:https://bfml88l95p.feishu.cn/wiki/DcoJwAZYniKl3fkn7Hyc1hS6nSd

 

全文完

王吉伟频道新书《一本书读懂AI Agent:技术、应用与商业》已出版,轻松读懂系统掌握AI Agent技术原理、行业应用、商业价值及创业机会,欢迎大家关注。

希望看到您的想法,请您发表评论x