AI Agent的本质不是“自主智能体”,而是基于大语言模型(LLM)能力封装的、具备结构化认知流程的决策代理系统;其真正价值不在于取代人类,而在于将人类解决问题的思维模式(规划→执行→反馈→迭代)工程化、可复现、可调试。
| 概念 | 一句话定义 | 解决问题 |
|---|---|---|
| Plan-and-Execute (P&E) | 一种先全局规划子任务序列,再逐项执行并动态更新状态,失败时触发重规划的Agent框架 | 多步骤、强依赖、需全局协调的复杂任务(如项目管理、供应链调度) |
| Self-Ask | 一种通过自动生成中间问题(interrogative questions)显式暴露推理缺口,再调用工具或记忆补全答案的Agent框架 | 需要多跳推理、信息分散在不同来源的开放域问答(如“某政策对某行业的影响?”) |
| Think-and-Act (T&A) | ReAct的轻量级实现,强调每一步思考(Think)必须绑定一个可验证的动作(Act),杜绝纯文本推理 | 工具调用密集、需实时反馈验证的场景(如API集成、数据库查询) |
| ReAct | Reasoning(推理)与 Acting(行动)严格交替的框架,强制模型在每步Action前输出Reasoning,Action后输出Observation | 需要透明化决策过程、便于人工审计与调试的高风险场景(如金融风控、医疗辅助) |
think(注释)必须紧跟一行act(代码),如// 计算总价 → total = price * qty;ReAct则是结对编程,think(解释)和act(执行)必须严格交替,且act后必须observe(看终端输出)。Think必须对应一个可执行Act(如Think: 需查用户余额 → Act: call_balance_api(user_id)),禁止纯文本思考Thought → Action → Observation → Thought → Action...固定序列,Observation是Action的唯一合法输出,不可省略call_kyc_api(user_id){"status": "verified", "risk_score": 0.2}{"status": "pending"},则下一Thought必为“等待KYC结果”,而非跳过| 层级 | 概念 | 作用 | 支撑关系 |
|---|---|---|---|
| 顶层 | Agent认知范式 | 解决“如何让LLM可靠解决复杂任务”这一根本问题 | 由以下四类框架支撑 |
| 中层 | P&E | 提供全局任务编排能力 | 依赖Task Decomposition + State Management |
| 中层 | Self-Ask | 提供多跳推理显性化能力 | 依赖Interrogative Question Generation |
| 中层 | T&A / ReAct | 提供工具调用过程可控性 | 依赖Thought-Action Binding + Observation Feedback |
| 底层 | LLM基础能力 | 提供语言理解、生成、常识推理 | 是所有框架的“大脑”, 但需框架约束其涌现行为 |
| 原因 | 结果 | 作用机制 |
|---|---|---|
| P&E缺失State Update | Agent重复错误决策 | 未将执行结果(Observation)写入State,导致后续Task基于过期信息 |
| Self-Ask生成非原子问题 | 推理链断裂 | 问题过大(如“分析市场趋势”)无法被单一工具回答,导致答案虚构 |
| ReAct跳过Observation | 过程不可审计 | 无法区分“Action执行成功”与“模型幻想执行成功”,丧失调试依据 |
| 对比维度 | P&E | Self-Ask | ReAct | 核心区别 |
|---|---|---|---|---|
| 定义 | 全局规划→分步执行→状态更新→重规划 | 生成中间问题→获取答案→构建推理链 | 思考→行动→观察→思考...严格交替 | P&E重规划,Self-Ask重提问,ReAct重审计 |
| 核心特征 | Task List + State变量 | Interrogative Questions + Answer Chain | Thought/Action/Observation三元组 | P&E有全局状态,Self-Ask无状态,ReAct有单步状态 |
| 工作原理 | 1. 输入→2. 规划Task List→3. 执行Task→4. 更新State→5. 若失败→Replay | 1. 输入→2. Q1→3. A1→4. Q2→5. A2→...→Final Answer | 1. Input→2. Thought→3. Action→4. Observation→5. Thought→... | Self-Ask是线性链,P&E/ReAct是循环 |
| 适用场景 | 项目管理、多步骤工作流 | 开放域问答、知识库检索 | API集成、需人工审核的决策 | P&E管“事”,Self-Ask答“问”,ReAct控“器” |
| 优势 | 强协调性,适合长周期任务 | 推理透明,易定位知识缺口 | 过程可审计,调试成本低 | P&E防遗漏,Self-Ask防幻觉,ReAct防失控 |
| 局限 | State管理复杂,Replay开销大 | 问题质量依赖LLM,易生成无效问题 | 严格序列降低效率,Observation可能冗余 | P&E过重,Self-Ask过散,ReAct过严 |
| 抽象概念 | 具体事物 | 类比映射 | 适用说明 |
|---|---|---|---|
| P&E的State | 项目经理的每日站会白板 | 白板上实时更新“已完成/进行中/阻塞”任务,所有人基于此同步 | 适用于需团队协作的多Agent系统 |
| Self-Ask的问题链 | 律师的交叉询问提纲 | 每个问题(Q1,Q2...)针对证人漏洞,答案(A1,A2...)构成证据链 | 适用于需要向监管方证明推理合规性的场景 |
| ReAct的Thought-Action-Observation | 医生的诊疗记录 | Thought=诊断思路,Action=开具检查,Observation=检查报告 | 适用于需留存完整决策证据链的领域 |
| 潜在盲点(学习者易误解) | 正确理解 | 为什么容易出错 |
|---|---|---|
| “P&E的Replay就是重跑整个流程” | Replay仅重规划受失败Task影响的子任务,可能只改第3步,不影响1、2、4步 | 视频中未强调State的局部更新,易理解为全局重启 |
| “Self-Ask的问题越多越好” | 问题必须满足MECE:互斥(Mutually Exclusive)且穷尽(Collectively Exhaustive),冗余问题增加LLM负担 | 初学者常把“头脑风暴”等同于“有效提问” |
| “ReAct的Observation可由LLM虚构” | Observation必须是工具返回的真实数据,严禁LLM编造(如“API返回:success”必须是真实响应) | 框架实现时若未强制Observation来源校验,易埋下审计风险 |
{"tasks": [{"id": "t1", "status": "done", "output": "..." }], "context": {...}})AI Agent的本质不是“自主智能体”,而是基于大语言模型(LLM)能力封装的、具备结构化认知流程的决策代理系统;其真正价值不在于取代人类,而在于将人类解决问题的思维模式(规划→执行→反馈→迭代)工程化、可复现、可调试。