谛听官方博客
官网首页
官网首页
  1. AI大模型基础课程
  • 快速开始
    • 概述
  • 费曼教学
    • AI大模型基础课程
      • 01 大模型应用开发入门:从零理解人工智能与大语言模型的底层逻辑
      • 02大模型应用场景深度解析:从概率本质到实践能力图谱
      • 03Gradio:大模型开发者的极速UI验证框架
      • 04 提示工程:从随心所欲到系统化可控的大模型交互科学
      • 05大模型工作流程:从输入到输出的完整认知地图
      • 06AI Agent 深度解析与工程实践:从认知原理到个性化定制
      • 07AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱
      • 08 智能体(Agent)决策流程的具象化教程:以智能家居温控系统为范例
      • 09智能体规划能力深度解析:从人类思维到思维链、自洽性与思维树的演进路径
      • 10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计
      • 11AI Agent记忆机制:从人类认知到工程实现的完整学习教程
      • 12Agent 工具系统:从概念到实践的完整认知框架
      • 13AI Agent核心认知框架精讲:Plan-and-Execute(P&E)、Self-Ask、Think-and-Act、ReAct 四大范式深度解析
      • 14Agent认知框架进阶:SF²(Self-Questioning & Self-Verification)深度教程
      • 15AI Agent认知框架:Thinking & Self-Reflection(思考与自我反思)深度教程
      • 16React 框架深度教程:从思考-行动-观察闭环到可落地的 Agent 构建
      • 17构建可干预、可调试的 RAG Agent:LlamaIndex 实战教程(React + 财报分析场景)
    • 提示词工程基础课程
      • 提示词工程核心三要素:准确性、自由度、效率——从原理到实践
    • 其他
      • 王阳明心学核心修炼:励志即立心——构建人生根本标准的完整教程
  1. AI大模型基础课程

10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计

【视频】11. 【进阶篇】10.思维树24点拓展与react框架#

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297671
⏱️ 视频时长: 00:16:41

💡 费曼教学(深度版)#

AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计#

核心洞见(顶层结论)#

大语言模型的“幻觉”本质不是能力不足,而是缺乏结构化推理与外部验证的闭环机制;通过思维树(ToT)进行多路径探索+ReAct框架实现“推理-行动-观察-反思”四步闭环,才能系统性提升AI Agent解决复杂任务的准确率。
为什么这个洞见重要:它揭示了当前主流AI产品(如直接调用大模型API)在逻辑推理类任务中失败的根本原因,并提供了可工程落地的双重增强范式——既非纯黑箱调用,也非纯人工编码,而是人机协同的认知架构设计。

学习目标#

完成本教程学习后,你将能够:
1.
清晰理解并准确解释思维树(Tree of Thoughts, ToT) 的核心思想与分层评估机制
2.
清晰理解并准确解释ReAct框架(Reasoning + Acting) 的四步闭环逻辑及其与人类协作认知的对应关系
3.
清晰理解并准确解释**“仅推理(Reason-only)”、“仅行动(Act-only)”与“推理+行动(ReAct)”三类范式的本质差异与失效场景**
4.
运用ToT+ReAct组合策略,为24点等组合搜索类问题设计可验证、可调试的AI Agent流程
5.
向他人清晰解释为何“手写Agent脚本”在特定任务上显著优于“直接调用大模型API”
核心知识点:
思维树(ToT):多分支生成 + 分层评分 + 路径剪枝
ReAct框架:Think → Act → Observe → Reflect 四步闭环
幻觉根源模型:知识封闭性(Reason-only)vs 流程不可控性(Act-only)
24点问题的结构化解法:四数→三数→二数→一数的三阶段归约

1. 背景与问题(Situation)#

视频以“24点游戏”为典型测试场景,暴露了当前AI产品在确定性逻辑推理任务中的系统性缺陷:
输入 5, 8, 11, 13,国产大模型(智谱GLM)给出错误解 (5 - 11/13) × 8 = 24(实际结果≈32.9),且无法自我纠正
错误根源并非计算能力缺失,而是缺乏任务分解意识、无分支评估机制、无外部验证反馈环
常见困境:
❌ 直接提问大模型 → 得到看似合理但数学错误的答案(幻觉)
❌ 纯Chain-of-Thought提示 → 推理过程冗长且无法中断错误路径
❌ 完全依赖工具调用 → 缺乏对工具结果的语义理解与筛选能力
核心挑战:
如何让大模型像人类一样:先规划、再试错、边执行边反思?
如何将抽象的“思考”转化为可编程的状态机(State Machine) 与评分函数(Scoring Function)?

2. 概念地图(顶层设计)#

概念一句话定义解决问题
思维树(ToT)将问题求解建模为树形结构:每个节点是部分解(如“5和13合并为8”),边是操作(如“减法”),通过多路径生成+分层打分+剪枝选择最优路径解决“单路径推理易陷局部最优”的问题,支持组合爆炸类问题的系统性探索
ReAct框架一种认知闭环范式:Think(规划下一步行动)→ Act(调用工具/计算/查询)→ Observe(接收结果)→ Reflect(判断是否满足目标,决定继续或回溯)解决“纯推理无验证”与“纯行动无控制”的双重失效,建立人机协同的认知节奏
Reason-only / Act-only / ReAct三种基础范式:仅靠内部知识推理、仅依赖外部工具执行、二者动态耦合揭示AI幻觉的两种根源,并提供可诊断、可替换的架构级解决方案

3. 核心概念深度解析(金字塔底层支撑)#

3.1 思维树(Tree of Thoughts, ToT)#

生活比喻:想象你在迷宫中找出口——
传统CoT 像只带一张地图盲目前进,走错就全盘重来;
ToT 像手持探照灯分叉路口:每到一个岔口,同时点亮3条路的灯光(生成多个子解),用指南针快速判断哪条更可能通向出口(打分),只深入最高分路径(剪枝)。
一句话定义:一种将问题求解过程显式建模为树状搜索空间的方法,通过并行生成多个思维节点、分层评估节点质量、动态剪枝低质分支,实现比线性推理更鲁棒的决策。
核心要点(MECE原则):
1.
节点即部分解:每个树节点代表一个中间状态(如24点中“[5,8,11,13] → [8,11,13]”表示已用5和13算出8)
2.
边即操作类型:加减乘除等合法运算,构成从父节点到子节点的转换规则
3.
分层打分机制:对每个节点独立评分(如“剩余数字越少、数值越接近24的因数,得分越高”),而非仅评价最终结果
常见误区:
❌ 误区:ToT = 多次提问大模型取平均答案
✅ 正确理解:ToT是结构化搜索算法,需明确定义状态空间、动作空间、评估函数、剪枝策略
⚠️ 为什么容易出错:混淆“生成多样性”与“搜索结构性”,未建立节点间的状态传递关系
实际应用:在24点Agent中,ToT将[5,8,11,13]生成3个候选子节点:[8,11,13](5+13=18)、[3,11,13](8-5=3)、[13,11,5](8÷?不合法→剪枝),再对每个子节点评估“距离24的潜力”。

3.2 ReAct框架(Reasoning + Acting)#

生活比喻:如同项目经理带领团队攻坚——
Think:召开站会明确“下一步该查竞品方案还是做用户访谈?”
Act:指派专人执行(查资料/约用户)
Observe:收到调研报告/访谈录音
Reflect:报告里说A方案用户接受度高→继续深化A;若数据矛盾→回退到Think重新规划
一句话定义:一种将大模型的推理能力(Reasoning) 与工具调用能力(Acting) 在时间维度上严格交替、形成闭环的交互协议。
核心要点(MECE原则):
1.
四步不可省略:Think→Act→Observe→Reflect 构成最小闭环单元,缺一不可
2.
Act必须可观察:每次Action需产生明确、可解析的输出(如API返回JSON、计算器返回数字)
3.
Reflect是决策中枢:基于Observe结果判断“是否达成目标”或“是否需要修正Think”,决定进入下一循环或终止
常见误区:
❌ 误区:ReAct = 给模型加一句“请逐步思考”
✅ 正确理解:ReAct是状态驱动的有限状态机(FSM),需显式维护当前状态(如“已执行2次Act,剩余数字为[3,8]”)
⚠️ 为什么容易出错:将Act视为“万能胶水”,未定义Action的输入约束与输出契约,导致Observe阶段无法解析结果
实际应用:24点Agent中,当ToT生成子节点[3,8]后:
Think:“3和8可直接相乘得24,无需进一步拆分”
Act:执行 3 * 8 计算
Observe:接收结果 24
Reflect:24 == 24 → 满足目标 → 输出最终公式 (13-5) * (11-8) = 24

3.3 Reason-only / Act-only / ReAct 三范式对比#

生活比喻:
Reason-only:闭门造车的工程师,仅凭记忆设计火箭(知识过时→爆炸)
Act-only:盲目下单的采购员,只管买零件不管组装逻辑(零件齐全≠能飞)
ReAct:总工程师+供应链总监双角色,边设计边验货,随时调整方案
一句话定义:三类AI任务执行范式,按内部推理与外部交互的耦合程度划分,决定系统鲁棒性上限。
核心要点(MECE原则):
1.
Reason-only失效场景:当问题超出模型训练数据分布(如冷门数学恒等式)、或需实时数据验证(如“今天北京气温”)
2.
Act-only失效场景:当工具返回结果需语义理解(如搜索返回10篇论文,需判断哪篇证明定理)
3.
ReAct优势本质:将“知识缺口”转化为“可执行的Action”,将“工具噪声”转化为“可判断的Observe”,形成负反馈调节
常见误区:
❌ 误区:ReAct一定比其他范式慢
✅ 正确理解:ReAct通过早期Reflect剪枝无效路径,整体耗时常低于暴力Reason-only(如24点中避免尝试(5+8+11+13)=37这种明显超限路径)
⚠️ 为什么容易出错:未意识到ReAct的Think阶段本身包含“成本预估”,可主动规避高开销Action
实际应用:对比视频中两个实验:
Reason-only(智谱GLM):直接回答,未验证(5-11/13)*8是否真等于24 → 输出幻觉
ReAct(自研Agent):在Act执行5-11/13后,Observe得到≈3.15,Reflect发现3.15*8≈25.2≠24 → 主动回退,尝试其他路径

4. 概念关系图(金字塔层级结构)#

4.1 层级结构#

层级概念作用支撑关系
顶层ReAct-ToT融合架构解决复杂逻辑推理任务的端到端方案由ToT提供搜索空间,ReAct提供执行闭环
中层ToT搜索引擎生成多路径、分层评估、动态剪枝由“状态定义”“动作规则”“评分函数”支撑
中层ReAct状态机驱动Think→Act→Observe→Reflect四步流转由“状态变量”“Action契约”“Reflect判定逻辑”支撑
底层24点领域知识定义数字操作规则、24的因数特征、剪枝启发式为ToT评分函数与ReAct Think提供语义依据

4.2 逻辑链条#

24点领域知识 → 定义ToT中“哪些运算合法”(如避免除零)、“如何评分”(剩余数字含3/4/6/8则高分)
ToT搜索引擎 → 为ReAct提供待执行的候选动作序列(如“先算13-5=8,再算11-8=3,最后3×8=24”)
ReAct状态机 → 对ToT生成的每个动作执行Think→Act→Observe→Reflect闭环,验证并修正ToT路径
ReAct-ToT融合架构 → 最终输出可验证、可追溯、可解释的24点解法,而非黑箱答案

4.3 因果关系#

原因结果作用机制
ToT未定义评分函数ReAct反复执行无效Action缺乏优先级引导,ReAct在低质路径上空转
ReAct缺少Reflect判定逻辑ToT无法剪枝错误分支Observe结果未被语义解析,错误路径持续扩展
24点领域知识未编码进评分函数ToT高分节点实际不可达评分与真实可行性脱节,导致“看起来好,算出来错”

5. 知识路径(学习路线图)#

1.
起点:理解 24点问题的数学结构
关键理解点:四数→三数→二数→一数的三阶段归约,本质是组合搜索问题
常见卡点:误以为只需穷举所有运算符排列,忽略“数字分组顺序”(如(a+b)×c-d vs a+(b×c)-d)
2.
中点:掌握 ToT的三层实现要素
关键理解点:generate_candidates()(生成子节点)、evaluate_node()(打分)、prune_branches()(剪枝)三函数缺一不可
突破方法:用纸笔模拟[5,8,11,13]的ToT展开,手动打分验证“13-5=8”为何比“5+8=13”得分更高(因8是24的因数)
3.
终点:应用 ReAct-ToT融合架构
关键应用场景:需多步推理+外部验证的任务(如数学证明、代码调试、实验设计)
效果验证:当Agent在3轮ReAct循环内输出正确解,且每轮Observe结果可被人工复现时,即掌握成功

6. 概念对比矩阵(易混淆概念辨析)#

对比维度思维链(CoT)思维树(ToT)ReAct核心区别
定义线性推理过程:“因为A,所以B,因此C”树状搜索空间:并行生成多个中间状态并评估交互闭环:“思考→行动→观察→反思”四步循环CoT是单路径,ToT是多路径,ReAct是动态闭环
核心特征顺序性、不可回溯、无分支管理并行性、可剪枝、有状态评估时序性、可中断、强状态依赖ToT管理“可能性”,ReAct管理“执行性”,二者正交可组合
工作原理提示词引导模型自回归生成推理文本代码控制模型多次调用,构建显式搜索树代码编排模型调用序列,强制状态流转CoT依赖模型隐式能力,ToT/ReAct依赖开发者显式架构
适用场景简单推理(如“小明有5个苹果…”)组合优化(如24点、路径规划)工具集成(如调用计算器、搜索API)ToT解决“怎么想”,ReAct解决“怎么做”,CoT只是“怎么说”
优势实现简单,零代码成本搜索鲁棒性强,避免局部最优可验证、可调试、可中断ReAct提供可控性,ToT提供完备性,CoT仅提供可读性
局限无法处理分支选择,易陷幻觉计算开销大,需精细评分函数依赖Action契约设计,开发成本高CoT是基线,ToT与ReAct是生产级增强
核心区别总结:CoT是“叙述推理”,ToT是“搜索推理”,ReAct是“执行推理”;三者可叠加(如ReAct中每个Think步骤用ToT生成),但不可互替。
容易混淆的原因:均含“思维”二字,但CoT是语言现象,ToT是算法范式,ReAct是系统架构。
记忆技巧:C-O-T → Chain(链)→ 线性;T-o-T → Tree(树)→ 分叉;ReAct → React(反应)→ 闭环。

7. 类比理解搭建(抽象具象化)#

抽象概念具体事物类比映射适用说明
ToT节点迷宫中的岔路口标记每个标记代表“已走到此处,可选方向为左/右/直行”适用于理解状态空间建模
ToT评分函数岔路口的GPS信号强度信号越强(数值越接近24因数),越可能通向出口适用于理解启发式搜索
ReAct Think项目经理的每日站会明确“今天要验证哪个假设?调用哪个工具?”适用于理解规划环节
ReAct Observe工具返回的Excel表格表格内容必须结构化(如{"result": 24, "steps": ["13-5=8", "11-8=3", "3*8=24"]})适用于理解工具契约设计
ReAct Reflect站会后的决策:继续或换方案判断"result" == 24成立则结束,否则修改Think计划适用于理解闭环控制逻辑
相似点:均体现“分而治之”思想,将复杂问题拆解为可管理单元。
不同点(重要):迷宫类比中,ToT只管画地图,ReAct负责走路+看路标+调方向;地图画得再好,不走路也到不了终点。
类比局限性:迷宫是静态环境,而ReAct的Observe可能返回动态变化的数据(如实时股价),需Reflect加入时效性判断。

8. 盲点识别(防坑指南)#

潜在盲点(学习者易误解)正确理解为什么容易出错
认为ToT只需增加prompt中的“多角度思考”指令ToT必须由代码控制多轮模型调用,生成显式树结构混淆语言提示(Prompt)与算法架构(Algorithm),未意识到ToT需状态管理
将ReAct的Act等同于“调用任意API”Act必须有明确定义的输入/输出契约(如calc(a,b,op)返回数字),否则Observe无法解析忽视ReAct中Observe环节的解析刚性要求,导致“调用了但看不懂结果”
以为ReAct能彻底消除幻觉ReAct降低幻觉概率,但无法根除(如模型在Think阶段虚构不存在的工具)将ReAct误解为“纠错机制”,实则是“可控试错机制”,仍依赖模型基础能力
在24点中直接对四个数打分评分必须针对部分解状态(如三个数的集合),而非原始输入未理解ToT的分层性,原始四数无“接近24”的语义,只有运算后的子集才有评估意义
跳步检测:
默认观众知道但实际需要解释:“深度优先/广度优先在ToT中的应用” —— 视频提到但未展开,需说明:ToT默认广度优先(每层评估所有节点),但可设阈值转深度优先(如“某节点得分>80则深入其子树”)
行话/术语未解释:“few-shot” —— 视频中指“给模型几个正确24点案例作为示范”,是ToT中generate_candidates()的提示模板
因果链断裂:未说明为何ToT+ReAct比单纯加大模型参数更有效 —— 根本在于问题性质:24点是确定性搜索问题,提升参数仅增强幻觉表达力,而ToT+ReAct改变求解范式

9. 核心洞见(价值提炼)#

1.
洞见一:幻觉是架构缺陷,非能力瓶颈
颠覆认知:过去认为“模型不够大所以出错”,实则是“缺乏验证闭环导致错误无法拦截”
实际价值:开发者可聚焦架构设计(如强化Reflect判定逻辑),而非盲目追求更大模型
2.
洞见二:ToT与ReAct是正交增强,可叠加使用
颠覆认知:二者常被割裂讨论,实则ToT解决“想什么”,ReAct解决“怎么做”,组合后形成“想得清+做得准”
实际价值:在24点中,ToT生成[8,11,13]候选,ReAct对该节点执行11-8=3→3*13=39→39≠24→Reflect触发回退,效率远超纯ToT穷举
3.
洞见三:领域知识必须编码进评分函数与Action契约
颠覆认知:以为“给模型足够数据它自会理解”,实则24点的“24因数特征”必须显式写入evaluate_node()
实际价值:将模糊的“数学直觉”转化为可调试的代码逻辑(如score += 10 if any(x in [3,4,6,8,12,24] for x in node_nums) else 0)

10. 学以致用(实践指南)#

行动指南:请为“判断三角形类型”问题(输入三边长,输出等边/等腰/直角/普通)设计ReAct-ToT Agent
操作步骤:
1.
第一步:定义ToT状态空间
节点:三边长元组(a,b,c),初始节点为输入值
动作:check_equilateral(a,b,c)、check_isosceles(a,b,c)、check_right(a,b,c)(勾股定理)
2.
第二步:设计ReAct四步循环
Think:“先验证是否等边,若否再验等腰,最后验直角”
Act:调用对应检查函数(返回True/False)
Observe:接收布尔结果
Reflect:若True则输出类型并终止;若False则进入下一Think(如“等边否→验等腰”)
3.
第三步:编写评分函数(ToT剪枝用)
对节点(a,b,c),若a==b==c则高分(等边优先),否则若a==b or b==c or a==c则中分(等腰次之)
4.
第四步:集成验证
输入(3,3,3) → 应输出“等边三角形”
输入(3,4,5) → 应经check_equilateral→False→check_isosceles→False→check_right→True→输出“直角三角形”
检验标准:当你能用Python代码实现上述四步,且对任意合法输入均输出正确类型、不出现KeyError或无限循环时,说明已经掌握。
进阶挑战:为该Agent添加“解释功能”——在Reflect阶段不仅输出类型,还生成自然语言解释(如“因3²+4²=5²,故为直角三角形”)。

11. 费曼检验清单(检验内化程度)#

11.1 一句话解释测试#

ToT:把问题解法画成一棵树,每个树枝是一个中间答案,用分数选出最靠谱的树枝往下长。
ReAct:像老司机开车——先想(Think)“该转弯还是直行”,再做(Act)踩油门/打方向,再看(Observe)后视镜,最后想(Reflect)“开对没?”。
Reason-only/Act-only/ReAct:纯想(Reason-only)像闭眼画画,纯做(Act-only)像蒙眼拼图,ReAct是睁眼+动手+看效果+再调整。

11.2 类比有效性评估#

类比:ToT像考试时先列多个解题思路再选最优 → 贴切 —— 因两者均强调“多选项生成+质量评估”
改进建议:补充“考试中若发现思路A计算量过大,会主动放弃” → 对应ToT剪枝,强化实用性

11.3 应用场景测试#

如果遇到“根据用户聊天记录推荐电影”,你会怎么应用ReAct?
→ Think:“需提取用户偏好关键词” → Act:调用NER模型识别{genre: "科幻", actor: "汤姆·克鲁斯"} → Observe:返回JSON → Reflect:若关键词完整则推荐《明日边缘》,否则追问“您喜欢硬核科幻还是太空歌剧?”
[ToT] 和 [ReAct] 应该如何配合使用?
→ ToT生成多个推荐策略(如“按导演推荐”“按票房推荐”“按影评热度推荐”),ReAct对每个策略执行Think→Act→Observe→Reflect闭环,最终选最高分策略输出。

11.4 逻辑链条测试#

能否说清 24点领域知识 → ToT评分函数 → ReAct Think决策 → Act执行 → Observe验证 → Reflect终止 的逻辑关系?
✓ 是:领域知识指出“24的因数(3,4,6,8)是优质中间态” → ToT评分函数对含这些数的节点加分 → ReAct Think优先选择高分节点 → Act执行对应运算 → Observe得到数值 → Reflect比对是否等于24 → 是则终止。

知识点总结(金字塔回顾)#

顶层结论回顾#

大语言模型的“幻觉”本质不是能力不足,而是缺乏结构化推理与外部验证的闭环机制;通过思维树(ToT)进行多路径探索+ReAct框架实现“推理-行动-观察-反思”四步闭环,才能系统性提升AI Agent解决复杂任务的准确率。

核心概念回顾#

1.
思维树(ToT)
定义:将问题求解建模为树形结构,通过多路径生成+分层打分+剪枝选择最优路径
核心要点:节点=部分解,边=操作,评分=启发式判断
应用场景:组合搜索、路径规划、多步数学推理
2.
ReAct框架
定义:Think→Act→Observe→Reflect四步闭环,实现推理与行动的动态耦合
核心要点:Act需可观察,Reflect是决策中枢,循环可中断
应用场景:工具集成、实时决策、需要验证的推理任务
3.
三范式对比
定义:Reason-only(纯推理)、Act-only(纯行动)、ReAct(推理+行动)
核心要点:Reason-only知识封闭,Act-only流程失控,ReAct二者平衡
应用场景:ReAct是生产环境首选,Reason-only仅用于简单问答

关键逻辑回顾#

24点领域知识 → 为ToT提供评分依据与动作规则
ToT搜索引擎 + ReAct状态机 → 共同构成ReAct-ToT融合架构
ReAct-ToT融合架构 → 最终解决24点等复杂逻辑任务,输出可验证解

学习成果检验#

☐ 能用简单语言解释ToT、ReAct及三范式差异
☐ 能说清ToT评分函数与ReAct Reflect如何协同剪枝错误路径
☐ 能为新问题(如三角形判定)设计ReAct-ToT流程
☐ 能向他人清晰讲解为何“手写Agent”在24点任务中优于“直接调用大模型”


💡 如何将这份知识化为己有?
这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。
它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。
🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。
🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月

🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取
修改于 2026-02-20 12:04:33
上一页
09智能体规划能力深度解析:从人类思维到思维链、自洽性与思维树的演进路径
下一页
11AI Agent记忆机制:从人类认知到工程实现的完整学习教程
Built with