谛听官方博客
官网首页
官网首页
  1. AI大模型基础课程
  • 快速开始
    • 概述
  • 费曼教学
    • AI大模型基础课程
      • 01 大模型应用开发入门:从零理解人工智能与大语言模型的底层逻辑
      • 02大模型应用场景深度解析:从概率本质到实践能力图谱
      • 03Gradio:大模型开发者的极速UI验证框架
      • 04 提示工程:从随心所欲到系统化可控的大模型交互科学
      • 05大模型工作流程:从输入到输出的完整认知地图
      • 06AI Agent 深度解析与工程实践:从认知原理到个性化定制
      • 07AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱
      • 08 智能体(Agent)决策流程的具象化教程:以智能家居温控系统为范例
      • 09智能体规划能力深度解析:从人类思维到思维链、自洽性与思维树的演进路径
      • 10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计
      • 11AI Agent记忆机制:从人类认知到工程实现的完整学习教程
      • 12Agent 工具系统:从概念到实践的完整认知框架
      • 13AI Agent核心认知框架精讲:Plan-and-Execute(P&E)、Self-Ask、Think-and-Act、ReAct 四大范式深度解析
      • 14Agent认知框架进阶:SF²(Self-Questioning & Self-Verification)深度教程
      • 15AI Agent认知框架:Thinking & Self-Reflection(思考与自我反思)深度教程
      • 16React 框架深度教程:从思考-行动-观察闭环到可落地的 Agent 构建
      • 17构建可干预、可调试的 RAG Agent:LlamaIndex 实战教程(React + 财报分析场景)
    • 提示词工程基础课程
      • 提示词工程核心三要素:准确性、自由度、效率——从原理到实践
    • 其他
      • 王阳明心学核心修炼:励志即立心——构建人生根本标准的完整教程
  1. AI大模型基础课程

07AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱

【视频】8. 【进阶篇】7.Agent概念、组成与决策

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297745
⏱️ 视频时长: 00:09:07


💡 费曼教学(深度版)

AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱

核心洞见(顶层结论)

AI Agent 不是“更聪明的 LLM”,而是对人类问题解决能力的系统性建模——它通过记忆(Memory)、规划(Planning)、行动(Action)和工具调用(Tool Use)四大组件,将单次“输入→思考→输出”的静态响应,升级为“感知→规划→行动→观察→反思→再规划”的闭环智能体。

为什么这个洞见重要:它从根本上纠正了“Agent = LLM + 函数调用”的常见误解,揭示了 Agent 的本质是认知架构的工程化复现;只有理解这一底层逻辑,才能避免堆砌功能、设计出真正具备自主性、适应性与鲁棒性的智能应用。


学习目标

完成本教程学习后,你将能够:

  1. 清晰理解并准确解释 AI Agent 与原生 LLM 的本质区别
  2. 清晰理解并准确解释 Memory、Planning、Action、Tool Use 四大核心组件的定义、分工与协同机制
  3. 清晰理解并准确解释 Agent 的标准决策循环(Perceive → Plan → Act → Observe → Reflect)及其动态反馈逻辑
  4. 运用这些概念分析实际场景中的 Agent 架构选型问题(如:为何客服场景需强 Memory,而代码生成需强 Planning)
  5. 向他人清晰解释“为什么一个钉钉子的任务,暴露了 LLM 的根本局限,却正是 Agent 的设计起点”

核心知识点:

  • Agent 的人类认知映射模型(对比 LLM 的 I/O 单环)
  • 四大支柱组件:Memory / Planning / Action / Tool Use
  • 感知-规划-行动-观察(PPOA)决策循环
  • 短期记忆 vs 长期记忆的工程实现差异
  • 规划框架选型逻辑(Chain-of-Thought、ReAct、CRITIC 等)

1. 背景与问题(Situation)

视频出发点:澄清当前 AI 应用开发中最大的认知断层——将 Agent 简单等同于“LLM 调用 API”,导致架构松散、任务失败率高、无法处理多步复杂任务。

常见困境:

  • 开发者用 LLM 写一段 prompt 实现天气查询,就宣称“已做出 Agent”,但无法处理“查完天气后帮我订明天下午三点的会议室”这类跨步骤任务
  • 项目中堆砌大量工具函数,却无统一规划机制,导致工具调用顺序混乱、失败后无回退策略

核心挑战:

  • 学习者难以跳出“LLM 是大脑”的直觉,无法建立“Agent 是完整认知系统”的心智模型
  • 对四大组件(Memory/Planning/Action/Tool)仅知其名,不知其责、不分主次、不识耦合关系

2. 概念地图(顶层设计)

概念一句话定义解决问题
AI Agent基于 LLM 构建的、具备记忆、规划、行动与工具调用能力的闭环智能体,模拟人类“感知→决策→执行→反馈→修正”的完整认知流程解决 LLM 单次响应无法处理多步骤、需状态维持、依赖外部信息的复杂任务问题
Memory(记忆)Agent 维持任务上下文与历史经验的能力,分为短期(会话级)与长期(用户级/知识库级)两种形态解决“忘记前文”“无法延续对话”“用户重复提问同一背景”等状态丢失问题
Planning(规划)Agent 将高层目标分解为可执行子步骤,并动态调整路径的推理能力,是 Agent 的“决策中枢”解决“不知道下一步该做什么”“遇到错误就卡死”“无法应对环境变化”等流程僵化问题
Tool Use(工具调用)Agent 主动选择并调用外部能力(API、计算器、搜索、代码执行器等)以弥补 LLM 自身能力边界解决 LLM “无法实时联网”“不会计算”“不能操作文件”“缺乏领域专业知识”等能力缺失问题
Action(行动)Agent 在当前规划步骤下执行的具体操作,包括生成文本、调用工具、更新记忆、触发下游服务等解决“规划了但不动手”“有想法无输出”“无法驱动真实世界”等执行断层问题

3. 核心概念深度解析(金字塔底层支撑)

3.1 AI Agent:人类认知的工程镜像

生活比喻:想象你被老板派去“把钉子钉到墙上”——
这不是一个靠“想”就能完成的动作,而是你大脑自动启动的一套完整工作流:
① 感知:看到钉子、锤子、墙面;
② 规划:“先用手按住钉子,再用锤子敲,注意角度和力度”;
③ 行动:伸手、握锤、挥动、敲击;
④ 观察:看钉子是否歪斜、是否深入;
⑤ 反思:“第一下太轻,第二下要加力” → 重新规划 → 继续行动。

一句话定义:Agent 是将人类上述五步闭环认知流程,用 Memory/Planning/Action/Tool 四大组件在代码中显式建模的系统。

核心要点:

  1. 不是增强 LLM,而是重构工作流:LLM 只是 Agent 中的“推理引擎”(Planning + 部分 Perception),而非全部;
  2. 闭环性是核心标志:缺少 Observation & Reflection 环节,就只是“带工具的聊天机器人”,不是 Agent;
  3. 自主性 ≠ 全自动:Agent 的“自主”体现在能基于反馈主动调整计划,而非无需人工设定目标或评估结果。

常见误区:

  • ❌ 误区:“Agent = LLM + Function Calling”
  • ✅ 正确理解:Function Calling 只是 Tool Use 的一种实现;没有 Planning,调用再多工具也是随机尝试;没有 Memory,每次调用都从零开始。
  • ⚠️ 为什么容易出错:受早期 LangChain 示例影响,过度聚焦“如何调 API”,忽略“为何调、何时调、调完怎么用”。

实际应用:在客服机器人中,当用户说“我昨天买的耳机今天还没发货”,Agent 必须:
→ Perceive:识别“耳机订单”“发货状态”“时间范围”;
→ Plan:“查订单号→查物流接口→判断是否超时→生成安抚话术+补救方案”;
→ Act:调用订单系统 API + 物流查询 API;
→ Observe:检查返回数据中“last_update_time”是否 < 24h;
→ Reflect:若未发货,则触发补偿流程;若已发货,则优化话术强调物流时效。


3.2 Memory:Agent 的“工作台”与“档案室”

生活比喻:就像你办公桌上摊开的笔记本(短期记忆)+ 抽屉里分类归档的项目文件(长期记忆)——前者记录当前会议要点,后者保存客户历史偏好。

一句话定义:Memory 是 Agent 用于存储、检索、更新任务相关上下文与经验数据的结构化机制。

核心要点:

  1. 短期记忆(Session Memory):绑定单次会话生命周期,通常存于内存/Redis,随会话结束自动清理;作用是维持多轮对话连贯性(如:“上一条我说要订会议室,这次说‘时间改成四点’”);
  2. 长期记忆(Persistent Memory):绑定用户/实体身份,持久化至数据库,含唯一 ID(如 user_id);作用是构建个性化服务能力(如:“张三讨厌咖啡因,所有推荐自动过滤含咖啡因饮品”);
  3. 记忆内容 ≠ 原始对话:需经摘要、向量化、关键信息提取(如:从 10 轮对话中抽取出“用户生日:1990-05-12,过敏源:花生”)。

常见误区:

  • ❌ 误区:“把整个聊天记录存进数据库就是 Memory”
  • ✅ 正确理解:原始日志是“原料”,Memory 是“加工品”——需支持语义检索(“找所有关于退款的讨论”)、增量更新(“用户刚修改了地址,只更新地址字段”)、隐私脱敏(“隐藏身份证号,保留地区信息”)。
  • ⚠️ 为什么容易出错:混淆“存储”与“记忆”,忽视检索效率与数据治理成本。

实际应用:电商导购 Agent 中,用户问“上次推荐的蓝牙耳机有优惠吗?”——
→ 短期记忆:记住“上次推荐”指 3 分钟前的对话;
→ 长期记忆:查用户档案,发现其历史购买中“Jabra Elite 系列”点击率超 80%,自动优先检索该品牌折扣。


3.3 Planning:Agent 的“作战指挥室”

生活比喻:像军事指挥官接到“夺取高地”命令后,立刻分解为:① 侦察地形 → ② 部署火力点 → ③ 火力压制 → ④ 步兵突击 → ⑤ 巩固阵地;并根据前线报告(如“左侧悬崖无法通行”)动态调整第二步。

一句话定义:Planning 是 Agent 将模糊目标转化为可执行、可验证、可迭代的子任务序列,并在执行中持续评估与修正的能力。

核心要点:

  1. 规划即推理:不是预设脚本,而是 LLM 基于当前状态(Perception + Memory)生成的动态策略;
  2. 主流框架本质对比:
    • Chain-of-Thought(CoT):单线程深度推理(“因为 A,所以 B,因此 C…”),适合逻辑严密任务(数学证明);
    • ReAct:显式分离“推理(Reasoning)”与“行动(Act)”,每步输出 Thought: … Action: …,便于调试与审计;
    • CRITIC:增加 Critique 环节,强制对上一步行动结果进行质量评估(“该 API 返回数据格式错误,需重试”),提升鲁棒性;
  3. 规划失败的信号:连续两步 Action 无 Observation 反馈;或 Observation 显示目标偏离 >30%(如:计划查“北京天气”,返回却是“上海航班信息”)。

常见误区:

  • ❌ 误区:“规划越详细越好,写 10 步总比 3 步强”
  • ✅ 正确理解:规划粒度需匹配任务复杂度与工具可靠性;过度拆解会放大误差累积(Step 1 错 → Step 2 基础崩塌);应遵循“最小可行规划”原则(MVP Plan)。
  • ⚠️ 为什么容易出错:开发者用自身认知负荷衡量 Agent,忽略 LLM 的 token 限制与推理衰减效应。

实际应用:旅行规划 Agent 接到“帮我安排东京 3 日游”:
→ 初级规划(CoT):列出景点、交通、餐饮;
→ 进阶规划(ReAct):
 Thought: 需确认用户偏好 → Action: query_user_preference("您喜欢历史景点还是现代购物?");
→ 鲁棒规划(CRITIC):
 Observation: 用户回复"喜欢动漫" → Critique: 原规划中浅草寺占比过高,需增加秋叶原权重 → Revised Plan: …


3.4 Tool Use:Agent 的“机械臂”与“传感器”

生活比喻:如同外科医生佩戴 AR 眼镜(获取实时影像)、操控机械臂(执行精细切割)、连接生命体征仪(监测患者状态)——工具扩展了人类的感知与行动边界。

一句话定义:Tool Use 是 Agent 主动识别能力缺口、选择合适外部服务、构造合规请求、解析返回结果并注入后续推理的完整链路。

核心要点:

  1. 工具 ≠ API:工具是封装了“能力描述(description)+ 输入规范(parameters)+ 输出解析(parsing logic)”的自治单元;LLM 通过 description 理解其用途,而非硬编码调用逻辑;
  2. 工具调用三阶段:
     ① Selection:LLM 根据当前规划(如“需要实时天气”)从工具库匹配 get_weather;
     ② Invocation:生成符合 OpenAPI Schema 的 JSON 参数(如 {"city": "Beijing", "unit": "celsius"});
     ③ Integration:将返回的原始 JSON(如 {"temp": 25, "condition": "sunny"})转为自然语言描述,喂给下一步 Planning;
  3. 工具可靠性分级:
     - Level 1(确定性):计算器、日期转换(输入输出严格一致);
     - Level 2(概率性):搜索 API、代码执行器(结果可能不相关/报错);
     - Level 3(黑盒性):第三方 SaaS(响应延迟、字段变更、权限失效)——需配套熔断、降级、重试策略。

常见误区:

  • ❌ 误区:“只要把 API 文档喂给 LLM,它就能正确调用”
  • ✅ 正确理解:LLM 需要明确的 tool description(如:“此工具返回未来 7 天天气预报,包含温度、湿度、降水概率;若城市不存在,返回 error_code=404”),且必须训练其理解参数约束(如:unit 只接受 "celsius" 或 "fahrenheit")。
  • ⚠️ 为什么容易出错:低估 tool description 的工程精度要求,用模糊自然语言描述(如:“查天气的工具”)导致 LLM 自由发挥。

实际应用:财务分析 Agent 处理“对比腾讯与阿里上季度营收”:
→ Selection:从工具库选出 get_company_financials;
→ Invocation:LLM 生成参数 {"company": "Tencent", "quarter": "2024-Q2", "metric": "revenue"};
→ Integration:解析返回 { "value": 15230000000, "currency": "CNY" } → 注入新规划:“腾讯营收 152.3 亿,阿里营收?→ 调用同工具,company=Alibaba”;
→ Fallback:若阿里接口超时,自动切换至 search_web("Alibaba 2024 Q2 revenue report")。


4. 概念关系图(金字塔层级结构)

4.1 层级结构

层级概念作用支撑关系
顶层AI Agent解决“LLM 无法自主完成复杂任务”的根本问题由以下四大组件协同支撑
中层Planning(规划)提供决策中枢,将目标转化为可执行路径依赖 Memory 提供上下文,驱动 Action 与 Tool Use
中层Memory(记忆)提供状态基座,保障任务连续性与个性化为 Planning 提供历史依据,存储 Action/Tool 结果
底层Action(行动)执行规划指令,产生具体输出是 Planning 的落地出口,触发 Tool Use 或直接响应用户
底层Tool Use(工具调用)扩展能力边界,连接物理/数字世界是 Action 的关键子类,为 Planning 提供实时数据输入

4.2 逻辑链条

  • Memory → 为 Planning 提供上下文(“用户上次说过敏花生”)与历史模式(“用户 80% 订单在周五下单”)
  • Planning + Memory → 共同决定 Tool Use 的必要性与目标(“需查过敏数据库 → 调用 check_allergen_db”)
  • Tool Use + Action → 生成 Observation 数据(API 返回值、执行日志)
  • Observation → 输入 Reflection 环节 → 触发 Planning 修正(“数据为空 → 换用备用 API” 或 “用户意图不明 → 发起澄清提问”)
  • Planning 修正 → 驱动新一轮 Action/Tool Use → 形成 PPOA 闭环

4.3 因果关系

原因结果作用机制
Memory 缺失(未记录用户偏好)Planning 偏离(推荐含咖啡因饮品)Planning 缺乏个性化约束条件,只能按通用模板生成
Tool Use 描述模糊(未声明 error_code)Reflection 失效(无法识别 API 失败)Observation 返回 {"error": "city not found"},但 LLM 无法解析为需重试,导致流程中断
Planning 粒度过细(拆解 20 步)Action 累积误差(第 5 步偏差导致第 15 步完全错误)LLM 每步推理置信度 <95%,20 步后成功概率趋近于 0

5. 知识路径(学习路线图)

  1. 起点:理解 LLM 的 I/O 单环局限

    • 关键理解点:LLM 是“状态less”的函数——输入 prompt,输出文本,无记忆、无规划、无外部交互能力。
    • 常见卡点:“既然 LLM 能写代码,为什么不能自己调 API?” → 答:它能生成 API 调用代码,但无法执行、无法读取返回、无法基于结果决策。
  2. 中点:掌握 PPOA 决策循环的动态性

    • 关键理解点:Observation 不是“结束”,而是新 Planning 的“输入”;Reflection 是让 Agent 区别于脚本的核心判断环节。
    • 突破方法:用纸笔模拟“订会议室”任务,强制为每步写下 Observation(如:“日历 API 返回:明天 15:00 已被占用”)和 Reflection(如:“需推荐其他时段”)。
  3. 终点:应用 四大组件协同设计 Agent 架构

    • 关键应用场景:客服工单处理(强 Memory + 中 Planning + 高频 Tool Use)vs. 代码生成助手(弱 Memory + 强 Planning + 工具链编排)。
    • 效果验证:当 Agent 在 3 次连续失败后,能自主提出替代方案(如:“搜索 API 不可用,是否启用本地知识库?”),而非报错退出。

6. 概念对比矩阵(易混淆概念辨析)

对比维度LLM(原生)AI Agent核心区别
定义大语言模型,基于统计学习的文本生成函数基于 LLM 构建的、具备记忆/规划/行动/工具能力的认知系统Agent 是系统,LLM 是其中的推理模块
核心特征单次输入→输出;无状态;能力固定多轮闭环;有状态;能力可扩展(通过工具)状态性与闭环性是根本分水岭
工作原理根据 prompt 概率采样生成文本Perceive(接收输入)→ Plan(LLM 推理)→ Act(执行/调用)→ Observe(接收反馈)→ Reflect(评估)→ Revise PlanAgent 引入了反馈驱动的动态控制流
适用场景回答问题、写文案、翻译、基础编程多步骤任务(订票+选座+支付)、需状态维护(客服对话)、依赖实时数据(天气/股价)Agent 解决的是LLM 的能力盲区
优势响应快、成本低、无需工程复杂度自主性高、鲁棒性强、可处理复杂现实任务Agent 以工程复杂度换取任务完成率
局限无法联网、不会计算、无记忆、难处理长流程开发成本高、调试困难、规划不可控、工具可靠性风险Agent 的“智能”依赖于各组件的工程成熟度

核心区别总结:LLM 是“大脑”,Agent 是“一个人”——有感官(Perceive)、有记忆(Memory)、会计划(Planning)、能动手(Action)、懂用工具(Tool Use)、会反思(Reflect)。
容易混淆的原因:宣传常强调“Agent 用 LLM”,掩盖了其作为系统工程的本质。
记忆技巧:记口诀——“人有五感一脑:眼耳鼻舌身(Perceive),心(Memory),思(Planning),手(Action),器(Tool),省(Reflect)”。


7. 类比理解搭建(抽象具象化)

抽象概念具体事物类比映射适用说明
PPOA 循环自动驾驶汽车感知(摄像头雷达)→ 规划(路径算法)→ 行动(转向/加速)→ 观察(传感器反馈)→ 反思(是否偏离车道?)适用于理解实时反馈与动态调整机制
Memory 分层笔记本 vs 档案馆短期记忆=摊开的笔记本(当前会议纪要);长期记忆=档案馆索引(用户ID→偏好档案)适用于理解数据存储策略与检索方式差异
Planning 框架不同导航APPCoT=高德“最优路线”(单条建议);ReAct=百度“分步指引”(“前方500米右转→到达后停车”);CRITIC=苹果地图“实时路况预警”(“前方拥堵,建议改道”)适用于理解不同规划范式的适用场景

相似点:均通过分步、反馈、修正提升任务成功率。
不同点(重要):人类/汽车/APP 的决策基于物理规律或预设规则,而 Agent 的 Planning 完全依赖 LLM 的概率推理——这是其不可预测性与调试难度的根源。
类比局限性:当涉及 LLM 的幻觉(hallucination)或 token 限制导致规划截断时,类比失效;此时需回归“LLM 是统计模型”的本质认知。


8. 盲点识别(防坑指南)

潜在盲点(学习者易误解)正确理解为什么容易出错
认为“调用工具越多,Agent 越强”工具数量与 Agent 能力无关,关键在于 Planning 是否能精准识别缺口、Memory 是否能沉淀有效经验、Tool Use 是否有容错机制受“功能堆砌”思维影响,忽略系统协同成本
混淆“规划输出”与“最终答案”Planning 阶段输出的是行动指令(如 Action: search("iPhone 15 price")),不是答案;答案在 Observation 后经 Reflection 生成LLM 在 CoT 中常混用“思考”与“回答”,导致学习者误以为规划即输出
忽视 Observation 的结构化解析Observation 不是原始 API 返回,而是经清洗、标准化、注入上下文后的结构化数据(如:{"tool": "weather_api", "result": {"temp": 25}, "status": "success"})开发者急于验证功能,跳过数据管道建设,导致 Reflection 无法解析原始 JSON

跳步检测:

  • 默认观众知道但实际需要解释:“LangChain 是框架,不是 Agent”(LangChain 提供 Memory/Tool/Planning 的组件库,但 Agent 架构需开发者自行组装);
  • 行话/术语未解释:“ReAct”(Reasoning + Acting,非“反应”字面义);
  • 因果链断裂:未说明 “为何 Observation 必须结构化?” → 因为 Reflection 阶段 LLM 需基于明确 status 字段判断是否重试,而非解析原始错误文本。

9. 核心洞见(价值提炼)

  1. 洞见一:Agent 的本质是认知架构,不是能力叠加

    • 颠覆认知:过去认为“加个搜索 API 就是 Agent”,现在明白“没有 Planning 的 API 调用只是自动化,不是智能”。
    • 实际价值:指导架构设计——先定义 Planning 范式(CoT/ReAct/CRITIC),再选型 Memory 方案,最后集成 Tools。
  2. 洞见二:Observation 是 Agent 的“呼吸阀”,Reflection 是其“进化开关”

    • 颠覆认知:多数教程止步于“Plan→Act”,忽略 Observation 的数据治理与 Reflection 的决策逻辑。
    • 实际价值:提供调试抓手——当 Agent 失败时,优先检查 Observation 是否结构化、Reflection 是否触发重试。
  3. 洞见三:Memory 的工程价值远超“记住对话”

    • 颠覆认知:Memory 不是聊天记录备份,而是支撑 Planning 的“事实数据库”与 Reflection 的“经验校准器”。
    • 实际价值:推动数据基建——需建设向量库(语义检索)、图数据库(关系推理)、时序库(行为模式挖掘)。

10. 学以致用(实践指南)

行动指南:请用纸笔完成一次 “外卖订单状态查询”Agent 的 PPOA 循环设计。

操作步骤:

  1. 第一步:Perceive —— 写下用户输入:“帮我查一下昨天中午12点在麦当劳下的单,现在到哪了?”
  2. 第二步:Plan —— 分解为 3 步:① 从 Memory 查用户昨日麦当劳订单号;② 调用 get_order_status(order_id);③ 生成状态描述(配送中/已送达/异常)。
  3. 第三步:Act & Observe —— 设计 get_order_status 的 mock 返回:{"status": "out_for_delivery", "eta": "13:45", "driver_name": "张师傅"}。
  4. 第四步:Reflect —— 若返回 {"error": "order_not_found"},写出你的 Reflection 与 Revised Plan(如:“查用户所有订单→按时间筛选→重试”)。

检验标准:当你能清晰标注每步的输入/输出/状态变更,并为失败场景设计至少 2 种 Recovery Path 时,说明已掌握 PPOA 本质。

进阶挑战:在上述设计中,加入 长期 Memory——若用户历史订单 70% 出现“配送延迟”,则在 Reflection 阶段自动添加安抚话术:“预计稍有延迟,我们已加急处理”。


11. 费曼检验清单(检验内化程度)

11.1 一句话解释测试

  • AI Agent:一个用 Memory 记住上下文、用 Planning 拆解任务、用 Action 执行操作、用 Tool Use 连接世界,并通过 Observation 和 Reflection 不断修正的闭环系统。
  • Planning:不是写死的流程,而是 LLM 基于当前状态(Memory + Perception)动态生成的、可执行可验证的子任务序列。
  • Tool Use:Agent 主动识别“我做不到什么”,然后选择、调用、解析外部能力,并把结果变成下一步推理的养料。

11.2 类比有效性评估

  • 类比:“Agent 如同项目经理” → 贴切 —— 项目经理不亲自写代码(LLM 不直接执行),但要理解需求(Perceive)、拆解任务(Plan)、协调资源(Tool Use)、跟进进度(Observe)、调整方案(Reflect)。
  • 改进建议:补充“项目经理也会犯错,需复盘会议(Reflection)”,强化学习属性。

11.3 应用场景测试

  • 如果遇到 “用户说‘把上周五的会议纪要发我邮箱’,但系统无邮件工具”:
     → Plan 阶段应识别缺口:“需发送邮件,但无 email_tool”;
     → Reflection 阶段触发 fallback:“提供下载链接(file_share_tool) + 复制粘贴文本(text_copy_tool)”。
  • Concept A (Memory) 与 Concept B (Planning) 配合:Memory 提供“上周五会议ID”,Planning 用该 ID 构造 get_meeting_notes(id) 调用指令。

11.4 逻辑链条测试

  • Memory(存储会议ID)→ 为 Planning(生成 get_meeting_notes(id) 指令)提供关键输入;
  • Planning(指令) + Tool Use(执行API)→ 生成 Observation(纪要文本);
  • Observation(文本)→ 输入 Reflection(检查是否含“待办事项”)→ 若缺失,则 Revised Plan(调用 extract_action_items 工具)。

知识点总结(金字塔回顾)

顶层结论回顾

AI Agent 不是“更聪明的 LLM”,而是对人类问题解决能力的系统性建模——它通过记忆(Memory)、规划(Planning)、行动(Action)和工具调用(Tool Use)四大组件,将单次“输入→思考→输出”的静态响应,升级为“感知→规划→行动→观察→反思→再规划”的闭环智能体。

核心概念回顾

  1. AI Agent

    • 定义:具备 Memory/Planning/Action/Tool 的闭环认知系统
    • 核心要点:闭环性、状态性、自主性
    • 应用场景:多步骤、需状态维持、依赖外部数据的任务
  2. Memory

    • 定义:存储与检索任务上下文的结构化机制
    • 核心要点:短期(会话级)vs 长期(用户级);原始日志 ≠ 有效记忆
    • 应用场景:客服对话、个性化推荐、历史数据分析
  3. Planning

    • 定义:将目标动态分解为可执行子任务并修正的能力
    • 核心要点:CoT(单线)、ReAct(显式)、CRITIC(带评估);粒度匹配任务复杂度
    • 应用场景:旅行规划、代码生成、多系统协同

关键逻辑回顾

  • Memory → 为 Planning 提供上下文与历史依据
  • Planning + Memory → 共同驱动 Tool Use 与 Action
  • Tool Use + Action → 生成 Observation → 触发 Reflection → 修正 Planning
  • Planning 修正 → 启动新一轮 PPOA 循环 → 直至目标达成

学习成果检验

  • ☐ 能用简单语言解释核心概念(如:“Planning 不是写脚本,是让 LLM 动态想下一步”)
  • ☐ 能说清概念之间的逻辑关系(如:“没有 Memory,Planning 就是空中楼阁”)
  • ☐ 能在实际场景中应用这些概念(如:为客服场景设计 Memory + ReAct 组合)
  • ☐ 能向他人清晰讲解这些内容(用“钉钉子”类比说服非技术同事)


💡 如何将这份知识化为己有?

这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。

它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。

🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。

🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月


🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取

修改于 2026-02-20 12:02:27
上一页
06AI Agent 深度解析与工程实践:从认知原理到个性化定制
下一页
08 智能体(Agent)决策流程的具象化教程:以智能家居温控系统为范例
Built with