近年来,大型语言模型(LLM)的推理能力取得了显著进展,催生了众多展现出接近人类水平性能的LLM-based Agent系统。然而,这些系统虽然都以LLM为核心,但其推理框架在引导和组织推理过程上却各有千秋。

本文介绍一篇全面的综述论文,它对基于LLM的 Agentic Reasoning Frameworks (智能推理框架)进行了系统性的梳理和分析。研究者们提出了一个统一的分类法,将现有方法分解为 单智能体 基于工具 多智能体 三大类,并深入探讨了这些框架在科学发现、医疗、软件工程、社会模拟等多个领域的应用。该综述旨在为研究社区提供一个全景式的视图,帮助理解不同框架的优势、适用场景和评估方法。

  • 论文标题: LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios

  • 作者: BINGXI ZHAO ,LIN GENG FOO, PING HU , CHRISTIAN THEOBALT,HOSSEIN RAHMANI ,JUN LIU

  • 机构: 北京交通大学、兰卡斯特大学、马克斯·普朗克计算机科学研究所、电子科技大学

  • 论文地址:
    https:///abs/2508.17692

研究背景与意义

随着LLM的爆发式增长,学术界和工业界都在积极探索如何利用LLM构建能够执行复杂、多步推理任务的智能体(Agent)。如下图所示,自2023年以来,关于LLM Agent框架的出版物数量呈快速增长趋势,显示了该领域日益增长的重要性。

然而,这种快速发展也带来了挑战:不同研究在框架设计、模型改进和技术实现上的界限变得模糊,使得横向比较不同项目的优劣变得困难。因此,一篇能够系统性地总结现有Agentic Reasoning框架的进展和应用场景的综述文章显得尤为及时和必要。它不仅能帮助研究者厘清概念,还能为Agentic框架的标准化和安全发展提供清晰的路线图。

Agentic Reasoning框架分类

这篇综述的核心贡献之一是提出了一个清晰的Agentic Reasoning框架分类法。作者将复杂的Agent系统解构为三个循序渐进的类别: 单智能体方法 基于工具的方法 多智能体方法

这三个层次共同构成了一个完整的Agentic Reasoning体系:

  • 单智能体方法 (Single-agent Methods) :专注于增强单个智能体的内在推理能力。

  • 基于工具的方法 (Tool-based Methods) :通过调用外部工具来扩展智能体的能力边界。

  • 多智能体方法 (Multi-agent Methods) :通过多个智能体之间的不同组织和互动范式,实现更灵活、更强大的集体推理能力。

单智能体方法

单智能体方法旨在从“外部引导”和“内部优化”两个角度提升单个Agent的认知和决策能力。

提示工程 (Prompt Engineering)

提示工程通过精心设计的提示来引导Agent的推理过程,主要包含四种技术:

  • 角色扮演 (Role-playing) :为Agent分配特定角色(如“你是一位专业的AI研究员”),以激发其特定领域的表现。

  • 环境模拟 (Environmental-simulation) :将Agent置于一个精心设计的虚拟环境中,使其能够利用多模态信息或外部能力进行推理。

  • 任务描述 (Task-description) :清晰地重构和表达任务,明确目标、约束和输出格式。

  • 上下文学习 (In-context Learning) :在推理前或推理中为Agent提供若干示例(few-shot examples),引导其学习。

自我提升 (Self-improvement)

自我提升机制使Agent能够通过反思和自主学习来动态调整其策略。主要有三种范式:

  • 反思 (Reflection) :Agent分析已完成的轨迹,生成文本摘要并存入其上下文,为下一步推理提供参考。

  • 迭代优化 (Iterative Optimization) :在单个任务中,Agent生成初始输出,与既定标准或反馈进行比较,并不断迭代优化,直到满足终止条件。

  • 交互式学习 (Interactive Learning) :Agent与动态环境互动,经验(如发现新物品)可以触发其高层目标的更新,从而实现持续、开放式的学习。

基于工具的方法

当面对需要与外部环境进行复杂交互的场景时,简单的单实体工具抽象已不足够。论文将基于工具的推理流程分解为三个基本阶段: 工具集成 工具选择 工具利用

Agent时代来临:一文读懂大模型Agentic Reasoning框架
  • 工具集成 (Tool Integration) :研究如何将工具整合到Agent的推理过程中,主要有API、插件和中间件三种模式。

  • 工具选择 (Tool Selection) :解决从工具箱中为当前任务选择最合适工具的问题,分为自主选择、基于规则选择和基于学习选择。

  • 工具利用 (Tool Utilization) :关注如何有效操作选定的工具以生成期望的输出,包括顺序使用、并行使用和迭代使用。

多智能体方法

对于需要多样化专业知识或复杂问题分解的任务,多智能体系统(Multi-agent Systems, MAS)应运而生。其核心原则是“分而治之”,但挑战在于实现有效的协调。论文从 组织架构 个体交互 两个维度对此进行分析。

  • 组织架构 (Organizational Architectures)

    • 中心化 (Centralized) :由一个中心Agent负责全局规划、任务分解和结果合成,协调性强但存在性能瓶颈。

    • 去中心化 (Decentralized) :所有Agent地位平等,通过点对点通信进行决策,鲁棒性好但效率可能较低。

    • 层级化 (Hierarchical) :将Agent组织成树状或金字塔结构,上层负责战略规划,下层负责具体执行,适用于可清晰分解的任务。

  • 个体交互 (Individual Interactions)

    • 合作 (Cooperation) :所有Agent以最大化集体利益为共同目标。

    • 竞争 (Competition) :Agent追求个体利益最大化,可能存在冲突。

    • 协商 (Negotiation) :在合作与竞争之间取得平衡,有利益冲突的Agent通过沟通和妥协达成共识。

Agentic Reasoning的应用场景

该综述详细探讨了Agentic Reasoning框架在多个前沿领域的应用,展示了其巨大的潜力。

科学发现

在生物化学领域,Agent系统被用于药物发现、基因实验设计、化学合成等。例如,BioDiscovery-Agent框架通过迭代设计基因扰动实验,并整合先验知识来指导其推理上下文,从而高效识别基因功能。

医疗健康

在医疗领域,Agent系统可用于辅助诊断、临床管理和环境模拟。例如,AIME框架通过两个“自博弈”循环进行持续优化:内部循环中,医生Agent根据评论家模块的实时反馈优化其在模拟对话中的行为;外部循环中,优化的模拟对话数据被用于微调推理系统。

软件工程

在软件工程中,Agent系统能够处理代码生成、程序修复和全周期软件开发。下表展示了多种Agentic编码框架在主流代码生成基准测试上的性能(Pass@1),可以看出基于Agent的框架(如AgentCoder, MetaGPT)在GPT-4等强大基础模型上,性能显著优于传统的提示方法。

社会与经济模拟

Agentic框架为模拟复杂的社会和经济动态提供了强大的工具。在社会模拟中,每个个体都由一个LLM-based Agent驱动,拥有独特的个人资料、目标和动态更新的上下文。通过与他人和环境的互动,Agent可以独立决策,从而在群体层面涌现出复杂且真实的社会现象。

下表汇总了不同的社会模拟方法及其规模。

总结与展望

这篇综述论文 首次提出了一个统一的方法论分类法 ,系统性地阐明了Agentic框架内的核心推理机制和方法。通过将Agent系统分解为单智能体、基于工具和多智能体三个层次,为分析和理解该领域提供了清晰的视角。

论文的价值在于:

  1. 系统的知识梳理 :为快速发展的LLM Agent领域提供了第一个系统的、框架层面的分类和综述。

  2. 统一的形式化语言 :引入了一套形式化语言来描述推理过程,清晰地展示了不同方法对关键步骤的影响。

  3. 广泛的应用场景分析 :深入研究了Agent框架在多个关键领域的应用,并对代表性工作进行了深入分析。

  4. 指明未来方向 :论文最后展望了未来的六个研究方向,包括推理的可扩展性与效率、开放式自主学习、动态推理框架、推理中的伦理与公平、安全性以及可解释性等,为后续研究提供了宝贵的指导。

CV君认为,这篇综述是所有希望了解、研究或应用LLM Agent的研究人员和工程师的必读文献。它不仅全面总结了现有工作,更重要的是提供了一个结构化的思维框架,帮助研究人员更好地驾驭这个充满机遇和挑战的新兴领域。