Agent时代来临：一文读懂大模型Agentic Reasoning框架

近年来，大型语言模型（LLM）的推理能力取得了显著进展，催生了众多展现出接近人类水平性能的LLM-based Agent系统。然而，这些系统虽然都以LLM为核心，但其推理框架在引导和组织推理过程上却各有千秋。

本文介绍一篇全面的综述论文，它对基于LLM的 Agentic Reasoning Frameworks （智能推理框架）进行了系统性的梳理和分析。研究者们提出了一个统一的分类法，将现有方法分解为 单智能体 、 基于工具 和 多智能体 三大类，并深入探讨了这些框架在科学发现、医疗、软件工程、社会模拟等多个领域的应用。该综述旨在为研究社区提供一个全景式的视图，帮助理解不同框架的优势、适用场景和评估方法。

论文标题： LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios
作者： BINGXI ZHAO ，LIN GENG FOO， PING HU ， CHRISTIAN THEOBALT，HOSSEIN RAHMANI ，JUN LIU
机构： 北京交通大学、兰卡斯特大学、马克斯·普朗克计算机科学研究所、电子科技大学
论文地址：
https:///abs/2508.17692

研究背景与意义

随着LLM的爆发式增长，学术界和工业界都在积极探索如何利用LLM构建能够执行复杂、多步推理任务的智能体（Agent）。如下图所示，自2023年以来，关于LLM Agent框架的出版物数量呈快速增长趋势，显示了该领域日益增长的重要性。

然而，这种快速发展也带来了挑战：不同研究在框架设计、模型改进和技术实现上的界限变得模糊，使得横向比较不同项目的优劣变得困难。因此，一篇能够系统性地总结现有Agentic Reasoning框架的进展和应用场景的综述文章显得尤为及时和必要。它不仅能帮助研究者厘清概念，还能为Agentic框架的标准化和安全发展提供清晰的路线图。

Agentic Reasoning框架分类

这篇综述的核心贡献之一是提出了一个清晰的Agentic Reasoning框架分类法。作者将复杂的Agent系统解构为三个循序渐进的类别： 单智能体方法 、 基于工具的方法 和 多智能体方法 。

这三个层次共同构成了一个完整的Agentic Reasoning体系：

单智能体方法 (Single-agent Methods) ：专注于增强单个智能体的内在推理能力。
基于工具的方法 (Tool-based Methods) ：通过调用外部工具来扩展智能体的能力边界。
多智能体方法 (Multi-agent Methods) ：通过多个智能体之间的不同组织和互动范式，实现更灵活、更强大的集体推理能力。

单智能体方法

单智能体方法旨在从“外部引导”和“内部优化”两个角度提升单个Agent的认知和决策能力。

提示工程 (Prompt Engineering)

提示工程通过精心设计的提示来引导Agent的推理过程，主要包含四种技术：

角色扮演 (Role-playing) ：为Agent分配特定角色（如“你是一位专业的AI研究员”），以激发其特定领域的表现。
环境模拟 (Environmental-simulation) ：将Agent置于一个精心设计的虚拟环境中，使其能够利用多模态信息或外部能力进行推理。
任务描述 (Task-description) ：清晰地重构和表达任务，明确目标、约束和输出格式。
上下文学习 (In-context Learning) ：在推理前或推理中为Agent提供若干示例（few-shot examples），引导其学习。

自我提升 (Self-improvement)

自我提升机制使Agent能够通过反思和自主学习来动态调整其策略。主要有三种范式：

反思 (Reflection) ：Agent分析已完成的轨迹，生成文本摘要并存入其上下文，为下一步推理提供参考。
迭代优化 (Iterative Optimization) ：在单个任务中，Agent生成初始输出，与既定标准或反馈进行比较，并不断迭代优化，直到满足终止条件。
交互式学习 (Interactive Learning) ：Agent与动态环境互动，经验（如发现新物品）可以触发其高层目标的更新，从而实现持续、开放式的学习。

基于工具的方法

当面对需要与外部环境进行复杂交互的场景时，简单的单实体工具抽象已不足够。论文将基于工具的推理流程分解为三个基本阶段： 工具集成 、 工具选择 和 工具利用 。

工具集成 (Tool Integration) ：研究如何将工具整合到Agent的推理过程中，主要有API、插件和中间件三种模式。
工具选择 (Tool Selection) ：解决从工具箱中为当前任务选择最合适工具的问题，分为自主选择、基于规则选择和基于学习选择。
工具利用 (Tool Utilization) ：关注如何有效操作选定的工具以生成期望的输出，包括顺序使用、并行使用和迭代使用。

多智能体方法

对于需要多样化专业知识或复杂问题分解的任务，多智能体系统（Multi-agent Systems, MAS）应运而生。其核心原则是“分而治之”，但挑战在于实现有效的协调。论文从 组织架构 和 个体交互 两个维度对此进行分析。

组织架构 (Organizational Architectures)

：

中心化 (Centralized) ：由一个中心Agent负责全局规划、任务分解和结果合成，协调性强但存在性能瓶颈。
去中心化 (Decentralized) ：所有Agent地位平等，通过点对点通信进行决策，鲁棒性好但效率可能较低。
层级化 (Hierarchical) ：将Agent组织成树状或金字塔结构，上层负责战略规划，下层负责具体执行，适用于可清晰分解的任务。

个体交互 (Individual Interactions) ：

合作 (Cooperation) ：所有Agent以最大化集体利益为共同目标。
竞争 (Competition) ：Agent追求个体利益最大化，可能存在冲突。
协商 (Negotiation) ：在合作与竞争之间取得平衡，有利益冲突的Agent通过沟通和妥协达成共识。

Agentic Reasoning的应用场景

该综述详细探讨了Agentic Reasoning框架在多个前沿领域的应用，展示了其巨大的潜力。

科学发现

在生物化学领域，Agent系统被用于药物发现、基因实验设计、化学合成等。例如，BioDiscovery-Agent框架通过迭代设计基因扰动实验，并整合先验知识来指导其推理上下文，从而高效识别基因功能。

医疗健康

在医疗领域，Agent系统可用于辅助诊断、临床管理和环境模拟。例如，AIME框架通过两个“自博弈”循环进行持续优化：内部循环中，医生Agent根据评论家模块的实时反馈优化其在模拟对话中的行为；外部循环中，优化的模拟对话数据被用于微调推理系统。

软件工程

在软件工程中，Agent系统能够处理代码生成、程序修复和全周期软件开发。下表展示了多种Agentic编码框架在主流代码生成基准测试上的性能（Pass@1），可以看出基于Agent的框架（如AgentCoder, MetaGPT）在GPT-4等强大基础模型上，性能显著优于传统的提示方法。

社会与经济模拟

Agentic框架为模拟复杂的社会和经济动态提供了强大的工具。在社会模拟中，每个个体都由一个LLM-based Agent驱动，拥有独特的个人资料、目标和动态更新的上下文。通过与他人和环境的互动，Agent可以独立决策，从而在群体层面涌现出复杂且真实的社会现象。

下表汇总了不同的社会模拟方法及其规模。

总结与展望

这篇综述论文 首次提出了一个统一的方法论分类法 ，系统性地阐明了Agentic框架内的核心推理机制和方法。通过将Agent系统分解为单智能体、基于工具和多智能体三个层次，为分析和理解该领域提供了清晰的视角。

论文的价值在于：

系统的知识梳理 ：为快速发展的LLM Agent领域提供了第一个系统的、框架层面的分类和综述。
统一的形式化语言 ：引入了一套形式化语言来描述推理过程，清晰地展示了不同方法对关键步骤的影响。
广泛的应用场景分析 ：深入研究了Agent框架在多个关键领域的应用，并对代表性工作进行了深入分析。
指明未来方向 ：论文最后展望了未来的六个研究方向，包括推理的可扩展性与效率、开放式自主学习、动态推理框架、推理中的伦理与公平、安全性以及可解释性等，为后续研究提供了宝贵的指导。

CV君认为，这篇综述是所有希望了解、研究或应用LLM Agent的研究人员和工程师的必读文献。它不仅全面总结了现有工作，更重要的是提供了一个结构化的思维框架，帮助研究人员更好地驾驭这个充满机遇和挑战的新兴领域。

微精选