【视频】14. 【进阶篇】13.Agent认知框架之Plan-and-Execute

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297863
⏱️ 视频时长: 00:11:54

💡 费曼教学（深度版）

AI Agent核心认知框架精讲：Plan-and-Execute（P&E）、Self-Ask、Think-and-Act、ReAct 四大范式深度解析

核心洞见（顶层结论）

AI Agent的本质不是“自主智能体”，而是基于大语言模型（LLM）能力封装的、具备结构化认知流程的决策代理系统；其真正价值不在于取代人类，而在于将人类解决问题的思维模式（规划→执行→反馈→迭代）工程化、可复现、可调试。

为什么这个洞见重要：它从根本上纠正了“Agent = 拥有意识的AI”的常见误解，将技术焦点从玄学叙事拉回工程实践——所有先进框架（P&E、Self-Ask、ReAct等）都是对“人类问题解决心智模型”的不同形式编码，选择框架的关键标准是任务结构匹配度，而非技术新颖性。

学习目标

完成本教程学习后，你将能够：

清晰理解并准确解释 Plan-and-Execute（P&E） 框架的闭环逻辑与适用边界

清晰理解并准确解释 Self-Ask 框架的元认知机制与推理链构建原理

清晰理解并准确解释 Think-and-Act（T&A） 与 ReAct 的本质异同及演进关系

运用四维对比矩阵，为实际业务场景（如项目管理、客服诊断、数据分析）精准匹配最优Agent框架

向非技术背景同事清晰解释：为何“让AI自己思考”必须通过结构化提示词+工具调用+状态更新来实现，而非单纯依赖更大参数量

核心知识点：

Plan-and-Execute（P&E）的五步闭环：Input → Planning → Task Decomposition → Action/Tool Use → State Update & Replay

Self-Ask的“问题驱动推理”范式：通过生成中间问题（interrogative questions）显式暴露推理缺口

Think-and-Act（T&A）作为ReAct的工程化变体：强调“思考即动作”的原子性与可观测性

ReAct框架的底层契约：Reasoning（R）与 Acting（A）必须严格交替，禁止Reasoning链中嵌套Action

1. 背景与问题（Situation）

当前AI Agent开发存在两大认知断层：
第一层断层：将Agent浪漫化为“数字生命体”，忽视其底层仍是LLM的涌现能力，导致调试无从下手（如视频中0.0679束玫瑰的荒谬结果，实为LLM幻觉未被流程约束所致）；
第二层断层：框架选择凭直觉而非任务建模——用ReAct处理多阶段项目管理（需全局规划），或用Self-Ask处理实时工具调用（需即时反馈），均因范式错配导致效果坍塌。

常见困境：

开发者反复调试Prompt却无法提升任务完成率，因未识别框架与任务结构的失配

业务方抱怨Agent“看似聪明实则不可控”，因缺乏对状态更新（State Update）和重计划（Replay）机制的设计

核心挑战：

如何将抽象的“人类思维过程”转化为可编程的Agent工作流？

如何判断一个复杂任务（如“为新产品制定上市路线图”）该用P&E还是Self-Ask？

2. 概念地图（顶层设计）

概念	一句话定义	解决问题
Plan-and-Execute (P&E)	一种先全局规划子任务序列，再逐项执行并动态更新状态，失败时触发重规划的Agent框架	多步骤、强依赖、需全局协调的复杂任务（如项目管理、供应链调度）
Self-Ask	一种通过自动生成中间问题（interrogative questions）显式暴露推理缺口，再调用工具或记忆补全答案的Agent框架	需要多跳推理、信息分散在不同来源的开放域问答（如“某政策对某行业的影响？”）
Think-and-Act (T&A)	ReAct的轻量级实现，强调每一步思考（Think）必须绑定一个可验证的动作（Act），杜绝纯文本推理	工具调用密集、需实时反馈验证的场景（如API集成、数据库查询）
ReAct	Reasoning（推理）与 Acting（行动）严格交替的框架，强制模型在每步Action前输出Reasoning，Action后输出Observation	需要透明化决策过程、便于人工审计与调试的高风险场景（如金融风控、医疗辅助）

3. 核心概念深度解析（金字塔底层支撑）

3.1 Plan-and-Execute（P&E）

生活比喻：想象一位项目经理接到“上线新APP”任务——他不会立刻写代码，而是先拆解为“需求评审→UI设计→后端开发→测试→发布”5个子任务，分配给不同人，并每日站会同步进度；若测试发现严重Bug，他不会只修复Bug，而是重新评估剩余任务是否受影响（如UI需调整），甚至重启整个计划。

一句话定义：P&E是以任务分解（Task Decomposition）为起点、以状态更新（State Update）为枢纽、以重规划（Replay）为容错机制的闭环Agent范式。

核心要点（MECE原则）：

规划先行：输入问题后，LLM首先生成结构化子任务列表（Task List），每个Task是独立可执行单元（如“查询纽约玫瑰均价”、“计算100美元可购数量”）

执行即验证：每个Task执行时必须关联明确动作（Action），且动作结果（Observation）必须写入全局状态（State），成为后续Task的输入

状态即真相：State是Agent的唯一事实源，包含已完成Task、失败Task、当前环境快照；任何决策（包括Replay）必须基于State，而非原始输入

常见误区：

❌ 误区：P&E = 先列计划再执行，无需反馈

✅ 正确理解：P&E的核心是State-Driven Replay——当Task执行失败（如搜索返回矛盾价格），必须基于State生成新Task（如“交叉验证三家花店报价”），而非简单重试原Task

⚠️ 为什么容易出错：开发者常忽略State Update环节，导致Agent在失败后仍沿用过期信息做决策（如视频中0.0679束玫瑰，源于未更新“玫瑰单价应为整数束起售”的业务约束）

实际应用：在SaaS客户成功系统中，P&E可自动化处理“客户投诉升级”流程：

Task1：提取投诉关键词 → Action：NLP分类

Task2：匹配SLA协议 → Action：查数据库

Task3：生成升级工单 → Action：调用Jira API

若Task2发现协议已过期，则State更新为“需法务介入”，触发新Task：“生成法务咨询请求”

3.2 Self-Ask

生活比喻：像侦探破案——看到“书房地板有水渍”，不直接下结论，而是问自己：“水渍形状像什么？（→检查痕迹）”、“最近谁接触过水源？（→查监控）”、“湿度计读数是否异常？（→调传感器数据）”，每个问题都指向一个可验证的信息缺口。

一句话定义：Self-Ask是通过强制模型生成中间问题（Interrogative Questions），将隐性推理显性化为问题-答案链的Agent范式。

核心要点：

问题即路标：每个生成的问题（Q1, Q2...）必须是可操作的（如“纽约玫瑰均价是多少？”），而非模糊陈述（如“玫瑰价格相关”）

答案即证据：每个问题的答案（A1, A2...）必须来自工具调用或检索，构成推理链的客观证据

链式收敛：最终答案由问题链终点的答案推导得出（Q1→A1, Q2→A2, ... → Final Answer），杜绝跳跃推理

常见误区：

❌ 误区：Self-Ask只需多问几个问题

✅ 正确理解：Self-Ask的威力在于问题质量——好问题必须满足：① 原子性（不可再分）② 可验证性（有明确答案源）③ 必要性（缺失则推理断裂）

⚠️ 为什么容易出错：模型易生成冗余问题（如“玫瑰是什么？”），或循环问题（Q1:价格？→A1:未知→Q2:价格是多少？），因未建立问题筛选机制

实际应用：在企业知识库问答中，Self-Ask可解答“某产品停产后如何服务老客户？”：

Q1：“该产品停产公告发布时间？” → Action：查内部Wiki

Q2：“停产公告中指定的服务替代方案？” → Action：PDF文本抽取

Q3：“替代方案的SLA条款？” → Action：查合同数据库

Final Answer = Q2答案 + Q3条款约束

3.3 Think-and-Act（T&A）与ReAct

生活比喻：T&A像程序员写代码——每行think（注释）必须紧跟一行act（代码），如// 计算总价 → total = price * qty；ReAct则是结对编程，think（解释）和act（执行）必须严格交替，且act后必须observe（看终端输出）。

一句话定义：T&A是将思考（Think）与动作（Act）绑定为原子单元的轻量框架；ReAct是强制Reasoning与Acting严格交替，并要求Observation作为反馈闭环的规范框架。

核心要点：

T&A的原子性：每个Think必须对应一个可执行Act（如Think: 需查用户余额 → Act: call_balance_api(user_id)），禁止纯文本思考

ReAct的契约性：必须遵循Thought → Action → Observation → Thought → Action...固定序列，Observation是Action的唯一合法输出，不可省略

关键区别：T&A关注执行效率（减少冗余思考），ReAct关注过程可审计（每步Reasoning可追溯）

常见误区：

❌ 误区：ReAct = T&A + Observation

✅ 正确理解：ReAct的核心是Reasoning的约束力——Thought必须解释为何选此Action，Observation必须验证Thought的假设（如Thought: “用户余额应充足 → Act: 扣款 → Observation: 扣款成功”）

⚠️ 为什么容易出错：开发者常将Observation写成“执行完成”，而非具体结果（如“扣款成功” vs “余额从1000变为950”），失去反馈价值

实际应用：在银行风控中，ReAct确保每步决策可审计：

Thought: “交易金额超阈值，需验证用户身份”

Action: call_kyc_api(user_id)

Observation: {"status": "verified", "risk_score": 0.2}

若Observation为{"status": "pending"}，则下一Thought必为“等待KYC结果”，而非跳过

4. 概念关系图（金字塔层级结构）

4.1 层级结构

层级	概念	作用	支撑关系
顶层	Agent认知范式	解决“如何让LLM可靠解决复杂任务”这一根本问题	由以下四类框架支撑
中层	P&E	提供全局任务编排能力	依赖Task Decomposition + State Management
中层	Self-Ask	提供多跳推理显性化能力	依赖Interrogative Question Generation
中层	T&A / ReAct	提供工具调用过程可控性	依赖Thought-Action Binding + Observation Feedback
底层	LLM基础能力	提供语言理解、生成、常识推理	是所有框架的“大脑”，但需框架约束其涌现行为

4.2 逻辑链条

LLM基础能力 → 为所有框架提供语言生成与理解能力

Task Decomposition（P&E） + Interrogative Question Gen（Self-Ask） → 共同构成Agent的“问题拆解引擎”，前者面向流程，后者面向信息

State Management（P&E） + Observation Feedback（ReAct） → 共同构成Agent的“事实校准机制”，前者维护长期状态，后者保障单步正确性

P&E / Self-Ask / ReAct → 三者组合形成完整Agent：P&E规划全局，Self-Ask深挖子问题，ReAct执行关键动作

4.3 因果关系

原因	结果	作用机制
P&E缺失State Update	Agent重复错误决策	未将执行结果（Observation）写入State，导致后续Task基于过期信息
Self-Ask生成非原子问题	推理链断裂	问题过大（如“分析市场趋势”）无法被单一工具回答，导致答案虚构
ReAct跳过Observation	过程不可审计	无法区分“Action执行成功”与“模型幻想执行成功”，丧失调试依据

5. 知识路径（学习路线图）

起点：理解 LLM是Agent的“大脑”，而非Agent本身

关键理解点：Agent = LLM + 框架（Prompt/Code）+ 工具（API/DB）+ 状态（State）

常见卡点：误以为换更强LLM就能解决所有Agent问题，忽视框架对LLM行为的约束作用

中点：掌握 P&E与Self-Ask的任务适配逻辑

关键理解点：P&E适合流程驱动型任务（步骤明确、依赖强），Self-Ask适合信息驱动型任务（答案分散、需多跳）

突破方法：用“流程图vs思维导图”快速判断——能画出清晰步骤箭头的用P&E，需发散连接节点的用Self-Ask

终点：应用 ReAct进行高风险场景的可审计Agent开发

关键应用场景：金融交易、医疗建议、法律咨询等需留痕的领域

效果验证：当任意一步Thought被质疑时，能立即定位到对应的Action与Observation证据链

6. 概念对比矩阵（易混淆概念辨析）

对比维度	P&E	Self-Ask	ReAct	核心区别
定义	全局规划→分步执行→状态更新→重规划	生成中间问题→获取答案→构建推理链	思考→行动→观察→思考...严格交替	P&E重规划，Self-Ask重提问，ReAct重审计
核心特征	Task List + State变量	Interrogative Questions + Answer Chain	Thought/Action/Observation三元组	P&E有全局状态，Self-Ask无状态，ReAct有单步状态
工作原理	1. 输入→2. 规划Task List→3. 执行Task→4. 更新State→5. 若失败→Replay	1. 输入→2. Q1→3. A1→4. Q2→5. A2→...→Final Answer	1. Input→2. Thought→3. Action→4. Observation→5. Thought→...	Self-Ask是线性链，P&E/ReAct是循环
适用场景	项目管理、多步骤工作流	开放域问答、知识库检索	API集成、需人工审核的决策	P&E管“事”，Self-Ask答“问”，ReAct控“器”
优势	强协调性，适合长周期任务	推理透明，易定位知识缺口	过程可审计，调试成本低	P&E防遗漏，Self-Ask防幻觉，ReAct防失控
局限	State管理复杂，Replay开销大	问题质量依赖LLM，易生成无效问题	严格序列降低效率，Observation可能冗余	P&E过重，Self-Ask过散，ReAct过严

核心区别总结：P&E是“项目经理”，Self-Ask是“调研员”，ReAct是“质检员”
容易混淆的原因：三者都涉及“思考”与“行动”，但角色定位根本不同——P&E决定“做什么”，Self-Ask决定“问什么”，ReAct决定“怎么做才可信”
记忆技巧：Plan-&-Execute = Project Manager；Self-Ask = Sleuth（侦探）；Reason-&-Act = Reporter（记者，需报道事实）

7. 类比理解搭建（抽象具象化）

抽象概念	具体事物	类比映射	适用说明
P&E的State	项目经理的每日站会白板	白板上实时更新“已完成/进行中/阻塞”任务，所有人基于此同步	适用于需团队协作的多Agent系统
Self-Ask的问题链	律师的交叉询问提纲	每个问题（Q1,Q2...）针对证人漏洞，答案（A1,A2...）构成证据链	适用于需要向监管方证明推理合规性的场景
ReAct的Thought-Action-Observation	医生的诊疗记录	Thought=诊断思路，Action=开具检查，Observation=检查报告	适用于需留存完整决策证据链的领域

相似点：三者都通过结构化流程约束不确定性
不同点（重要）：P&E的State是共享内存，Self-Ask的问题链是私有推理，ReAct的三元组是公开日志
类比局限性：类比无法体现LLM的随机性——真实Agent中，同一Thought可能触发不同Action（温度参数影响），需通过采样控制

8. 盲点识别（防坑指南）

潜在盲点（学习者易误解）	正确理解	为什么容易出错
“P&E的Replay就是重跑整个流程”	Replay仅重规划受失败Task影响的子任务，可能只改第3步，不影响1、2、4步	视频中未强调State的局部更新，易理解为全局重启
“Self-Ask的问题越多越好”	问题必须满足MECE：互斥（Mutually Exclusive）且穷尽（Collectively Exhaustive），冗余问题增加LLM负担	初学者常把“头脑风暴”等同于“有效提问”
“ReAct的Observation可由LLM虚构”	Observation必须是工具返回的真实数据，严禁LLM编造（如“API返回：success”必须是真实响应）	框架实现时若未强制Observation来源校验，易埋下审计风险

跳步检测：

默认观众知道但实际需要解释：State变量的具体数据结构（如JSON Schema：{"tasks": [{"id": "t1", "status": "done", "output": "..." }], "context": {...}}）

行话/术语未解释：“原子性Task”（指不可再分、有明确输入输出的最小执行单元，如“调用天气API”而非“获取天气信息”）

因果链断裂：未说明为何P&E比ReAct更适合项目管理——因ReAct单步无状态，无法跨步骤协调资源（如Task2需等待Task1的交付物）

9. 核心洞见（价值提炼）

洞见一：Agent框架是LLM的“认知OS”

颠覆认知：LLM不是Agent，而是Agent的“CPU”；框架才是决定其能否可靠工作的“操作系统”

实际价值：选择框架如同选择OS——Windows（P&E）适合办公流程，Linux（ReAct）适合服务器运维，不能混用

洞见二：所有框架的终极目标是“驯服LLM的涌现性”

颠覆认知：LLM的“创造力”在Agent中是风险源，框架的价值在于将其约束在可预测路径内

实际价值：视频中0.0679束玫瑰不是LLM缺陷，而是P&E框架未约束“数量必须为正整数”的业务规则

洞见三：没有银弹框架，只有任务适配框架

颠覆认知：框架优劣不由论文指标决定，而由任务结构匹配度决定

实际价值：用Self-Ask处理订单履约（需强流程）会失败，用P&E处理政策解读（需多源信息）会低效

10. 学以致用（实践指南）

行动指南：为你的业务场景选择首个Agent框架

操作步骤：

第一步：用一句话描述任务——若含“先...再...最后...”用P&E；若含“为什么...如何...是否...”用Self-Ask；若含“调用XX接口”“查XX数据库”用ReAct

第二步：画出任务流程图——节点数＞5且依赖强→P&E；节点分散无序→Self-Ask；节点间需实时验证→ReAct

第三步：检查合规要求——需留痕审计→ReAct；需多部门协同→P&E；需知识溯源→Self-Ask

第四步：用最小原型验证——P&E写Task List，Self-Ask列3个问题，ReAct写1个Thought-Action-Observation三元组

检验标准：当你能说出“我的任务用X框架，因为Y特征匹配Z机制”时，说明已掌握

进阶挑战：设计混合框架——用P&E管理全局，Self-Ask深挖子问题，ReAct执行关键动作（如“上市路线图”中，P&E定阶段，Self-Ask研竞品，ReAct调CRM数据）

11. 费曼检验清单（检验内化程度）

11.1 一句话解释测试

P&E：先拆解任务清单，执行中更新状态，失败时只重规划受影响部分

Self-Ask：把答案藏在问题里——不断问自己可验证的小问题，用答案拼出最终答案

ReAct：像医生写病历：每步思考必须写明原因，每次行动必须记录真实结果

11.2 类比有效性评估

类比：P&E = 项目经理白板 [贴切] —— 因两者都依赖实时状态同步与局部重规划

改进建议：补充“白板需标注每个任务的负责人（工具）”，强化工具绑定

11.3 应用场景测试

如果遇到“分析客户流失原因”，你会怎么应用Self-Ask？
→ Q1：“近3月流失客户中，使用免费版占比？” → A1：查数据库
→ Q2：“流失客户中，最后活跃功能是什么？” → A2：查行为日志
→ Q3：“流失前是否有客服投诉？” → A3：查工单系统

P&E 和 Self-Ask 应该如何配合使用？
→ P&E规划“流失分析”总流程（数据提取→归因分析→报告生成），Self-Ask在“归因分析”子任务中生成具体问题链

11.4 逻辑链条测试

能否说清：LLM能力 → 为P&E提供Task Decomposition能力 → Task需State管理 → State失效触发Replay → Replay需新Task → 新Task需LLM生成？
✓ 是：理解闭环本质
✗ 否：需重看3.1节State Update机制

知识点总结（金字塔回顾）

顶层结论回顾

AI Agent的本质不是“自主智能体”，而是基于大语言模型（LLM）能力封装的、具备结构化认知流程的决策代理系统；其真正价值不在于取代人类，而在于将人类解决问题的思维模式（规划→执行→反馈→迭代）工程化、可复现、可调试。

核心概念回顾

Plan-and-Execute（P&E）

定义：先全局规划子任务序列，再逐项执行并动态更新状态，失败时触发重规划

核心要点：Task List、State Update、Replay

应用场景：多步骤、强依赖、需全局协调的复杂任务

Self-Ask

定义：通过自动生成中间问题显式暴露推理缺口，再调用工具补全答案

核心要点：Interrogative Questions、Answer Chain、MECE问题

应用场景：需多跳推理、信息分散的开放域问答

ReAct

定义：Reasoning与Acting严格交替，Observation作为反馈闭环

核心要点：Thought-Action-Observation三元组、可审计性

应用场景：需过程留痕、人工审核的高风险决策

关键逻辑回顾

LLM基础能力 → 为所有框架提供语言生成与理解能力

Task Decomposition（P&E） + Interrogative Question Gen（Self-Ask） → 共同构成Agent的“问题拆解引擎”

State Management（P&E） + Observation Feedback（ReAct） → 共同构成Agent的“事实校准机制”

学习成果检验

☐ 能用简单语言解释P&E、Self-Ask、ReAct的核心差异

☐ 能说清为何P&E需要State而Self-Ask不需要

☐ 能在实际场景中为任务匹配最优框架

☐ 能向他人清晰讲解：Agent框架如何“驯服”LLM的涌现性

💡 如何将这份知识化为己有？

这篇结构化的笔记，是我用 AI 工具谛听处理视频后一键生成的。

它不仅能 批量提取B站视频文案，更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。

🎯 现在就可以体验： 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频，
不到10分钟，就能得到一份属于你的结构化笔记。

🔗 立即体验： https://diting.cc
⏰ 免费额度： 新用户注册即送30分钟/月

🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取

13AI Agent核心认知框架精讲：Plan-and-Execute（P&E）、Self-Ask、Think-and-Act、ReAct 四大范式深度解析

【视频】14. 【进阶篇】13.Agent认知框架之Plan-and-Execute#

💡 费曼教学（深度版）#

AI Agent核心认知框架精讲：Plan-and-Execute（P&E）、Self-Ask、Think-and-Act、ReAct 四大范式深度解析#

核心洞见（顶层结论）#

学习目标#

1. 背景与问题（Situation）#

2. 概念地图（顶层设计）#

3. 核心概念深度解析（金字塔底层支撑）#

3.1 Plan-and-Execute（P&E）#

3.2 Self-Ask#

3.3 Think-and-Act（T&A）与ReAct#

4. 概念关系图（金字塔层级结构）#

4.1 层级结构#

4.2 逻辑链条#

4.3 因果关系#

5. 知识路径（学习路线图）#

6. 概念对比矩阵（易混淆概念辨析）#

7. 类比理解搭建（抽象具象化）#

8. 盲点识别（防坑指南）#

9. 核心洞见（价值提炼）#

10. 学以致用（实践指南）#

11. 费曼检验清单（检验内化程度）#

11.1 一句话解释测试#

11.2 类比有效性评估#

11.3 应用场景测试#

11.4 逻辑链条测试#

知识点总结（金字塔回顾）#

顶层结论回顾#

核心概念回顾#

关键逻辑回顾#

学习成果检验#

【视频】14. 【进阶篇】13.Agent认知框架之Plan-and-Execute

💡 费曼教学（深度版）

AI Agent核心认知框架精讲：Plan-and-Execute（P&E）、Self-Ask、Think-and-Act、ReAct 四大范式深度解析

核心洞见（顶层结论）

学习目标

1. 背景与问题（Situation）

2. 概念地图（顶层设计）

3. 核心概念深度解析（金字塔底层支撑）

3.1 Plan-and-Execute（P&E）

3.2 Self-Ask

3.3 Think-and-Act（T&A）与ReAct

4. 概念关系图（金字塔层级结构）

4.1 层级结构

4.2 逻辑链条

4.3 因果关系

5. 知识路径（学习路线图）

6. 概念对比矩阵（易混淆概念辨析）

7. 类比理解搭建（抽象具象化）

8. 盲点识别（防坑指南）

9. 核心洞见（价值提炼）

10. 学以致用（实践指南）

11. 费曼检验清单（检验内化程度）

11.1 一句话解释测试

11.2 类比有效性评估

11.3 应用场景测试

11.4 逻辑链条测试

知识点总结（金字塔回顾）

顶层结论回顾

核心概念回顾

关键逻辑回顾

学习成果检验