AI代理应用程序：定义自主性的软件系统

2024年08月07日由 alex 发表 311 0

简介

自大型语言模型（LLM）问世以来，有两大进展。第一个转变与模型有关，第二个转变与流程工程有关。

模型

从仅有 LLM 的环境，到引入小型语言模型。这些模型在推理、上下文对话转向和历史管理方面具有卓越的能力，但没有知识密集型的负担。

用于本地/边缘/离线推理的量化软件很容易获得，许多功能强大的模型已开源，并可通过无代码模型部署和托管选项随时使用。

模型也变得多模化，图像摄取和处理在使代理（代理应用程序）更自主地浏览屏幕方面发挥着重要作用。

流程工程

仅有提示工程是不够的，我们必须找到一种重复使用提示的方法；因此，我们引入了模板，在推理时可以填充关键数据字段。随后，我们将提示进行连锁，以创建更长的流程和更复杂的应用。

在连锁的基础上，又增加了高度上下文信息和推理，从而产生了一种通过检索增强生成（RAG）利用上下文学习（ICL）的方法。

这一演变的下一步是代理应用（人工智能代理），即赋予应用一定程度的代理权（自主权）。LlamaIndex 将先进的 RAG 功能与 Agent 方法相结合，创造了 Agentic RAG。

自主性

要想提高代理应用程序的代理水平，就需要引入更多的模式。MindSearch 可以通过文本界面探索网络。而 OmniParser、Ferrit-UI 和 WebVoyager 则使代理应用程序能够定义图形界面，并在图形用户界面上导航。

上图是微软公司的 OmniParser，与苹果公司的 FerritUI 和 WebVoyager 采用的方法类似。屏幕元素会被检测出来，用边界框映射并命名。在此基础上，用户界面和任何人工智能对话系统之间都可以创建一个自然语言层。

MindSearch

MindSearch 的前提是，复杂的请求往往无法通过搜索引擎的单一实例进行准确、完整的检索。

在解决问题时，需要整合的相应信息会分散在多个网页上，并伴随着大量的噪音。

此外，大量内容冗长的网页可能会很快超过 LLM 的最大上下文长度。

WebPlanner 将多步骤信息搜索的人类思维模拟为一个动态图构建过程。

它使用 GPT-4o 或 InternLM2.5-7B 模型，将用户查询分解为作为图中节点的原子子问题，并根据 WebSearcher 的搜索结果逐步扩展图。

MindSearch 框架

MindSearch 由两个主要部分组成： WebPlanner 和 WebSearcher。

WebPlanner 作为高级计划器，协调推理步骤和多个 WebSearcher。

WebSearcher 进行细粒度的网络搜索，并总结有价值的信息反馈给规划者，从而形成一个简单而有效的多代理框架。

一个具体的示例，说明 WebPlanner 如何通过 "规划即编码 "的方式逐步解决这个问题。在每一轮中，WebPlanner 都会输出一系列想法和生成的代码。代码将被执行，并向规划者提供搜索结果。在最后一轮，WebPlanner 会直接给出最终答案。

WebSearcher 可作为一个复杂的 RAG（检索和生成）代理访问互联网，根据搜索结果汇总有价值的回复。

结论

MindSearch 框架介绍了一种新颖的基于 LLM 的多代理框架，专为复杂的网络信息搜索和整合任务而设计。

它利用复杂查询的有效分解和分层信息检索，将问题解决过程模拟为迭代图构建。

它采用多代理设计（Multi-Agent Design），将认知负荷分配给专门代理，从而提高了处理复杂和冗长情境的能力。

文章来源：https://medium.com/@cobusgreyling/agent-ai-agentic-applications-are-software-systems-with-a-foundation-model-ai-backbone-defined-cab2d6778081

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇创建合成训练数据

下一篇使用引导和遗传算法创建更强大的决策树

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市