🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297757
⏱️ 视频时长: 00:13:20
智能体的“规划”不是预设流程,而是对任务的动态解构、多路径探索与实时反思的三位一体认知过程——它本质是人类高阶思维能力(分解→推理→评估→修正→终止)在大语言模型上的可工程化映射。
为什么这个洞见重要:绝大多数开发者将“规划”误解为静态任务拆分或固定工作流,导致Agent系统在复杂场景中失效;真正决定Agent智能上限的,是其能否像人类一样,在执行中持续进行“元认知监控”——这正是思维链(CoT)、自洽性(Self-Consistency)与思维树(ToT)技术演进的本质逻辑。
完成本教程学习后,你将能够:
核心知识点:
视频出发点:纠正当前Agent开发中对“规划”的普遍误读——将其简化为“任务拆分”或“流程编排”,忽视其作为动态认知过程的核心特征。
常见困境:
核心挑战:
| 概念 | 一句话定义 | 解决问题 |
|---|---|---|
| 规划(Planning) | 智能体对任务进行动态解构、执行路径探索、过程反思与终止决策的认知闭环 | 解决“LLM无法自主处理复杂多步任务”的根本瓶颈 |
| 思维链(Chain-of-Thought, CoT) | 通过提示词引导LLM显式输出推理步骤,将单次响应转化为线性推理链 | 解决“LLM跳步推理导致错误”的问题 |
| 自洽性(Self-Consistency) | 对同一问题生成多条CoT路径,取最终答案的众数以提升鲁棒性 | 解决“单条CoT路径偶然性错误”的问题 |
| 思维树(Tree-of-Thought, ToT) | 在CoT每一步生成多个推理分支,通过启发式评估选择最优路径继续扩展 | 解决“线性推理无法覆盖解空间”的根本局限 |
生活比喻:想象你被老板临时委派策划一场产品发布会——你不会直接开干,而是先问:目标是什么?需要哪些资源?谁负责什么?关键节点在哪?如果设计稿被否怎么办?如何判断发布会算成功? 这个动态思考过程就是规划。
一句话定义:规划是智能体为达成目标,主动进行任务分解、工具调度、路径探索、过程反思与终止判定的元认知循环。
核心要点(MECE原则):
常见误区:
实际应用:在客服Agent中,当用户说“帮我取消上个月的订单并退款”,规划模块需:① 拆解为“查订单→验证权限→执行取消→触发退款→通知用户”;② 若“查订单”失败,反思是否因用户未登录,转而发起登录流程;③ 当退款状态变为“已到账”,触发终止并发送确认消息
生活比喻:就像数学老师要求学生“写出解题步骤”,而不是只写答案——强制LLM暴露思考过程,避免黑箱跳跃。
一句话定义:通过Prompt指令(如“请逐步推理”)引导LLM生成中间推理步骤,将单次输入-输出映射扩展为“输入→步骤1→步骤2→...→输出”的链式结构。
核心要点:
常见误区:
实际应用:在编程助手Agent中,用户提问“用Python写一个快速排序”,CoT会强制输出:① 理解快排原理(分治+递归)→② 定义pivot选取策略→③ 编写partition函数→④ 组装递归调用,而非直接扔出代码
生活比喻:像召开专家评审会——邀请5位不同背景的专家独立解答同一问题,取多数人认同的答案,降低个体判断偏差。
一句话定义:对同一问题生成N条独立CoT路径,汇总各路径的最终答案,选择出现频率最高的答案作为输出。
核心要点:
常见误区:
实际应用:在医疗问答Agent中,对“头痛伴随视力模糊的可能病因”,生成5条CoT路径(分别从神经科/眼科/内科视角推理),若4条指向“青光眼急性发作”,则采纳该结论并标注置信度80%
生活比喻:像国际象棋AI的蒙特卡洛树搜索——不只走一条路,而是在每个决策点展开多条分支,用“胜率评估”动态剪枝,最终找到最优解。
一句话定义:将推理过程建模为树状结构,每个节点代表一个部分解决方案,通过启发式评估函数(如“距离目标的剩余步数”)选择最有希望的分支继续扩展。
核心要点:
常见误区:
实际应用:在创意写作Agent中,用户要求“写一篇关于‘时间’的哲理散文”,ToT会:① 根节点生成3个立意(时间如河流/时间如牢笼/时间如馈赠)→② 对每个立意生成2个核心意象→③ 评估“意象新颖度+哲理深度”得分→④ 选择最高分组合展开成文
| 层级 | 概念 | 作用 | 支撑关系 |
|---|---|---|---|
| 顶层 | 规划(Planning) | 解决复杂任务的自主执行问题 | 由CoT/ToT提供推理能力,由反思机制提供调控能力 |
| 中层 | 思维链(CoT) | 提供基础推理能力 | 是ToT的原子操作单元(ToT的每个节点内运行CoT) |
| 中层 | 反思(Reflection) | 提供动态调控能力 | 监控CoT/ToT执行效果,触发重规划或终止 |
| 底层 | 自洽性(Self-Consistency) | 提升单次推理鲁棒性 | 可嵌入CoT或ToT节点内,作为局部纠错模块 |
| 底层 | 思维树(ToT) | 提供全局搜索能力 | 是CoT的超集,当任务复杂度超过线性推理阈值时启用 |
| 原因 | 结果 | 作用机制 |
|---|---|---|
| 任务复杂度↑(如24点需3步以上推理) | CoT准确率↓ | 线性推理链断裂风险指数级上升 |
| 引入ToT搜索机制 | 准确率↑(24点达95%+) | 启发式评估函数筛选高潜力分支,规避错误路径 |
| 反思模块检测到连续失败 | 触发重规划 | 重置任务状态,切换ToT搜索策略(如从广度优先转深度优先) |
起点:理解 CoT是规划的“最小可行推理单元”
中点:掌握 ToT是CoT的“战略升级”
终点:应用 规划闭环实现生产级Agent
| 对比维度 | 思维链(CoT) | 自洽性(Self-Consistency) | 思维树(ToT) |
|---|---|---|---|
| 定义 | 单条线性推理路径 | 多条CoT路径的众数聚合 | 多分支树状推理结构 |
| 核心特征 | 步骤显性化 | 结果鲁棒性增强 | 路径可探索性 |
| 工作原理 | Prompt触发步骤生成 | 并行生成+投票决策 | 节点生成+启发式评估+搜索 |
| 适用场景 | 中等复杂度任务(2-3步推理) | 需要稳定输出的场景(如客服FAQ) | 高复杂度任务(需全局优化,如24点、策略游戏) |
| 优势 | 实现简单,成本低 | 显著提升准确率 | 突破LLM推理天花板 |
| 局限 | 单点故障,不可回溯 | 成本高,可能掩盖真知 | 实现复杂,需设计评估函数 |
核心区别总结:CoT是“怎么想”,Self-Consistency是“多想几次选多数”,ToT是“想到哪算哪,边想边选最优路径”
容易混淆的原因:三者都涉及“多步推理”,但控制粒度不同(CoT控制步骤,Self-Consistency控制路径数量,ToT控制搜索策略)
记忆技巧:CoT = Chain(链条)→ 线性;Self-Consistency = Survey(调查)→ 投票;ToT = Tree(树)→ 分支
| 抽象概念 | 具体事物 | 类比映射 | 适用说明 |
|---|---|---|---|
| 规划闭环 | 导航APP(如高德) | 输入目的地→规划路线→实时监测偏航→重新规划→到达提示 | 适用于理解“动态调整”特性 |
| CoT推理 | 数学解题草稿纸 | 写出每一步计算过程,而非直接抄答案 | 适用于初学者建立步骤意识 |
| ToT搜索 | 国际象棋AI(AlphaZero) | 每步棋评估数十种走法,用胜率预测选择最优分支 | 适用于理解启发式评估价值 |
| 反思机制 | 飞行员检查清单 | 起飞前逐项确认:油量✓、襟翼✓、通讯✓→任一失败则中止 | 适用于理解终止判定的严谨性 |
相似点:均强调过程透明性与动态调控
不同点(重要):人类导航可直觉纠偏,LLM必须通过显式Prompt Engineering构建同等能力
类比局限性:导航APP路径是预计算的,而ToT是实时生成的——后者需LLM在毫秒级完成节点评估
| 潜在盲点(学习者易误解) | 正确理解 | 为什么容易出错 |
|---|---|---|
| 认为ToT只需增加API调用次数 | ToT的核心是状态管理+评估函数,非简单并行调用 | 视频未强调节点状态需持久化存储,开发者易忽略上下文丢失问题 |
| 将“反思”等同于“错误重试” | 反思包含前置规划校验+过程监控+后置效果评估三维 | 视频侧重后置反思,但生产级Agent需在任务启动前验证可行性(如检查工具权限) |
| 认为自洽性总能提升准确率 | 当CoT路径存在系统性偏差(如领域知识缺失),众数反成共识性错误 | 视频提到“真理在少数人手中”,但未给出检测系统性偏差的方法(如用领域专家规则校验CoT步骤) |
跳步检测:
洞见一:规划的本质是元认知,而非流程编排
洞见二:ToT不是CoT的升级版,而是范式革命
洞见三:反思机制是规划闭环的“安全阀”
行动指南:用ToT重构你的第一个复杂任务Agent(如24点求解器)
操作步骤:
[6,6,6,6]→[12,6,6]→[18,6]→[24])score = 1/(abs(sum(state)-24)+1))检验标准:当你输入任意四数组合(如[3,3,8,8]),Agent在10秒内返回正确运算序列(8/(3-8/3)=24),即算掌握
进阶挑战:为ToT添加“反思层”——当某层所有节点得分<0.1时,触发重规划:更换启发式函数(如改用“数字乘积与24的接近度”)
智能体的“规划”不是预设流程,而是对任务的动态解构、多路径探索与实时反思的三位一体认知过程——它本质是人类高阶思维能力(分解→推理→评估→修正→终止)在大语言模型上的可工程化映射。
规划(Planning)
思维链(CoT)
思维树(ToT)
💡 如何将这份知识化为己有?
这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。
它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。
🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。
🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月
🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取