🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297745
⏱️ 视频时长: 00:09:07
AI Agent 不是“更聪明的 LLM”,而是对人类问题解决能力的系统性建模——它通过记忆(Memory)、规划(Planning)、行动(Action)和工具调用(Tool Use)四大组件,将单次“输入→思考→输出”的静态响应,升级为“感知→规划→行动→观察→反思→再规划”的闭环智能体。
为什么这个洞见重要:它从根本上纠正了“Agent = LLM + 函数调用”的常见误解,揭示了 Agent 的本质是认知架构的工程化复现;只有理解这一底层逻辑,才能避免堆砌功能、设计出真正具备自主性、适应性与鲁棒性的智能应用。
完成本教程学习后,你将能够:
核心知识点:
视频出发点:澄清当前 AI 应用开发中最大的认知断层——将 Agent 简单等同于“LLM 调用 API”,导致架构松散、任务失败率高、无法处理多步复杂任务。
常见困境:
核心挑战:
| 概念 | 一句话定义 | 解决问题 |
|---|---|---|
| AI Agent | 基于 LLM 构建的、具备记忆、规划、行动与工具调用能力的闭环智能体,模拟人类“感知→决策→执行→反馈→修正”的完整认知流程 | 解决 LLM 单次响应无法处理多步骤、需状态维持、依赖外部信息的复杂任务问题 |
| Memory(记忆) | Agent 维持任务上下文与历史经验的能力,分为短期(会话级)与长期(用户级/知识库级)两种形态 | 解决“忘记前文”“无法延续对话”“用户重复提问同一背景”等状态丢失问题 |
| Planning(规划) | Agent 将高层目标分解为可执行子步骤,并动态调整路径的推理能力,是 Agent 的“决策中枢” | 解决“不知道下一步该做什么”“遇到错误就卡死”“无法应对环境变化”等流程僵化问题 |
| Tool Use(工具调用) | Agent 主动选择并调用外部能力(API、计算器、搜索、代码执行器等)以弥补 LLM 自身能力边界 | 解决 LLM “无法实时联网”“不会计算”“不能操作文件”“缺乏领域专业知识”等能力缺失问题 |
| Action(行动) | Agent 在当前规划步骤下执行的具体操作,包括生成文本、调用工具、更新记忆、触发下游服务等 | 解决“规划了但不动手”“有想法无输出”“无法驱动真实世界”等执行断层问题 |
生活比喻:想象你被老板派去“把钉子钉到墙上”——
这不是一个靠“想”就能完成的动作,而是你大脑自动启动的一套完整工作流:
① 感知:看到钉子、锤子、墙面;
② 规划:“先用手按住钉子,再用锤子敲,注意角度和力度”;
③ 行动:伸手、握锤、挥动、敲击;
④ 观察:看钉子是否歪斜、是否深入;
⑤ 反思:“第一下太轻,第二下要加力” → 重新规划 → 继续行动。
一句话定义:Agent 是将人类上述五步闭环认知流程,用 Memory/Planning/Action/Tool 四大组件在代码中显式建模的系统。
核心要点:
常见误区:
实际应用:在客服机器人中,当用户说“我昨天买的耳机今天还没发货”,Agent 必须:
→ Perceive:识别“耳机订单”“发货状态”“时间范围”;
→ Plan:“查订单号→查物流接口→判断是否超时→生成安抚话术+补救方案”;
→ Act:调用订单系统 API + 物流查询 API;
→ Observe:检查返回数据中“last_update_time”是否 < 24h;
→ Reflect:若未发货,则触发补偿流程;若已发货,则优化话术强调物流时效。
生活比喻:就像你办公桌上摊开的笔记本(短期记忆)+ 抽屉里分类归档的项目文件(长期记忆)——前者记录当前会议要点,后者保存客户历史偏好。
一句话定义:Memory 是 Agent 用于存储、检索、更新任务相关上下文与经验数据的结构化机制。
核心要点:
常见误区:
实际应用:电商导购 Agent 中,用户问“上次推荐的蓝牙耳机有优惠吗?”——
→ 短期记忆:记住“上次推荐”指 3 分钟前的对话;
→ 长期记忆:查用户档案,发现其历史购买中“Jabra Elite 系列”点击率超 80%,自动优先检索该品牌折扣。
生活比喻:像军事指挥官接到“夺取高地”命令后,立刻分解为:① 侦察地形 → ② 部署火力点 → ③ 火力压制 → ④ 步兵突击 → ⑤ 巩固阵地;并根据前线报告(如“左侧悬崖无法通行”)动态调整第二步。
一句话定义:Planning 是 Agent 将模糊目标转化为可执行、可验证、可迭代的子任务序列,并在执行中持续评估与修正的能力。
核心要点:
Thought: … Action: …,便于调试与审计;Critique 环节,强制对上一步行动结果进行质量评估(“该 API 返回数据格式错误,需重试”),提升鲁棒性;常见误区:
实际应用:旅行规划 Agent 接到“帮我安排东京 3 日游”:
→ 初级规划(CoT):列出景点、交通、餐饮;
→ 进阶规划(ReAct):
Thought: 需确认用户偏好 → Action: query_user_preference("您喜欢历史景点还是现代购物?");
→ 鲁棒规划(CRITIC):
Observation: 用户回复"喜欢动漫" → Critique: 原规划中浅草寺占比过高,需增加秋叶原权重 → Revised Plan: …
生活比喻:如同外科医生佩戴 AR 眼镜(获取实时影像)、操控机械臂(执行精细切割)、连接生命体征仪(监测患者状态)——工具扩展了人类的感知与行动边界。
一句话定义:Tool Use 是 Agent 主动识别能力缺口、选择合适外部服务、构造合规请求、解析返回结果并注入后续推理的完整链路。
核心要点:
get_weather;{"city": "Beijing", "unit": "celsius"});{"temp": 25, "condition": "sunny"})转为自然语言描述,喂给下一步 Planning;常见误区:
unit 只接受 "celsius" 或 "fahrenheit")。实际应用:财务分析 Agent 处理“对比腾讯与阿里上季度营收”:
→ Selection:从工具库选出 get_company_financials;
→ Invocation:LLM 生成参数 {"company": "Tencent", "quarter": "2024-Q2", "metric": "revenue"};
→ Integration:解析返回 { "value": 15230000000, "currency": "CNY" } → 注入新规划:“腾讯营收 152.3 亿,阿里营收?→ 调用同工具,company=Alibaba”;
→ Fallback:若阿里接口超时,自动切换至 search_web("Alibaba 2024 Q2 revenue report")。
| 层级 | 概念 | 作用 | 支撑关系 |
|---|---|---|---|
| 顶层 | AI Agent | 解决“LLM 无法自主完成复杂任务”的根本问题 | 由以下四大组件协同支撑 |
| 中层 | Planning(规划) | 提供决策中枢,将目标转化为可执行路径 | 依赖 Memory 提供上下文,驱动 Action 与 Tool Use |
| 中层 | Memory(记忆) | 提供状态基座,保障任务连续性与个性化 | 为 Planning 提供历史依据,存储 Action/Tool 结果 |
| 底层 | Action(行动) | 执行规划指令,产生具体输出 | 是 Planning 的落地出口,触发 Tool Use 或直接响应用户 |
| 底层 | Tool Use(工具调用) | 扩展能力边界,连接物理/数字世界 | 是 Action 的关键子类,为 Planning 提供实时数据输入 |
check_allergen_db”)| 原因 | 结果 | 作用机制 |
|---|---|---|
| Memory 缺失(未记录用户偏好) | Planning 偏离(推荐含咖啡因饮品) | Planning 缺乏个性化约束条件,只能按通用模板生成 |
| Tool Use 描述模糊(未声明 error_code) | Reflection 失效(无法识别 API 失败) | Observation 返回 {"error": "city not found"},但 LLM 无法解析为需重试,导致流程中断 |
| Planning 粒度过细(拆解 20 步) | Action 累积误差(第 5 步偏差导致第 15 步完全错误) | LLM 每步推理置信度 <95%,20 步后成功概率趋近于 0 |
起点:理解 LLM 的 I/O 单环局限
中点:掌握 PPOA 决策循环的动态性
Observation(如:“日历 API 返回:明天 15:00 已被占用”)和 Reflection(如:“需推荐其他时段”)。终点:应用 四大组件协同设计 Agent 架构
| 对比维度 | LLM(原生) | AI Agent | 核心区别 |
|---|---|---|---|
| 定义 | 大语言模型,基于统计学习的文本生成函数 | 基于 LLM 构建的、具备记忆/规划/行动/工具能力的认知系统 | Agent 是系统,LLM 是其中的推理模块 |
| 核心特征 | 单次输入→输出;无状态;能力固定 | 多轮闭环;有状态;能力可扩展(通过工具) | 状态性与闭环性是根本分水岭 |
| 工作原理 | 根据 prompt 概率采样生成文本 | Perceive(接收输入)→ Plan(LLM 推理)→ Act(执行/调用)→ Observe(接收反馈)→ Reflect(评估)→ Revise Plan | Agent 引入了反馈驱动的动态控制流 |
| 适用场景 | 回答问题、写文案、翻译、基础编程 | 多步骤任务(订票+选座+支付)、需状态维护(客服对话)、依赖实时数据(天气/股价) | Agent 解决的是LLM 的能力盲区 |
| 优势 | 响应快、成本低、无需工程复杂度 | 自主性高、鲁棒性强、可处理复杂现实任务 | Agent 以工程复杂度换取任务完成率 |
| 局限 | 无法联网、不会计算、无记忆、难处理长流程 | 开发成本高、调试困难、规划不可控、工具可靠性风险 | Agent 的“智能”依赖于各组件的工程成熟度 |
核心区别总结:LLM 是“大脑”,Agent 是“一个人”——有感官(Perceive)、有记忆(Memory)、会计划(Planning)、能动手(Action)、懂用工具(Tool Use)、会反思(Reflect)。
容易混淆的原因:宣传常强调“Agent 用 LLM”,掩盖了其作为系统工程的本质。
记忆技巧:记口诀——“人有五感一脑:眼耳鼻舌身(Perceive),心(Memory),思(Planning),手(Action),器(Tool),省(Reflect)”。
| 抽象概念 | 具体事物 | 类比映射 | 适用说明 |
|---|---|---|---|
| PPOA 循环 | 自动驾驶汽车 | 感知(摄像头雷达)→ 规划(路径算法)→ 行动(转向/加速)→ 观察(传感器反馈)→ 反思(是否偏离车道?) | 适用于理解实时反馈与动态调整机制 |
| Memory 分层 | 笔记本 vs 档案馆 | 短期记忆=摊开的笔记本(当前会议纪要);长期记忆=档案馆索引(用户ID→偏好档案) | 适用于理解数据存储策略与检索方式差异 |
| Planning 框架 | 不同导航APP | CoT=高德“最优路线”(单条建议);ReAct=百度“分步指引”(“前方500米右转→到达后停车”);CRITIC=苹果地图“实时路况预警”(“前方拥堵,建议改道”) | 适用于理解不同规划范式的适用场景 |
相似点:均通过分步、反馈、修正提升任务成功率。
不同点(重要):人类/汽车/APP 的决策基于物理规律或预设规则,而 Agent 的 Planning 完全依赖 LLM 的概率推理——这是其不可预测性与调试难度的根源。
类比局限性:当涉及 LLM 的幻觉(hallucination)或 token 限制导致规划截断时,类比失效;此时需回归“LLM 是统计模型”的本质认知。
| 潜在盲点(学习者易误解) | 正确理解 | 为什么容易出错 |
|---|---|---|
| 认为“调用工具越多,Agent 越强” | 工具数量与 Agent 能力无关,关键在于 Planning 是否能精准识别缺口、Memory 是否能沉淀有效经验、Tool Use 是否有容错机制 | 受“功能堆砌”思维影响,忽略系统协同成本 |
| 混淆“规划输出”与“最终答案” | Planning 阶段输出的是行动指令(如 Action: search("iPhone 15 price")),不是答案;答案在 Observation 后经 Reflection 生成 | LLM 在 CoT 中常混用“思考”与“回答”,导致学习者误以为规划即输出 |
| 忽视 Observation 的结构化解析 | Observation 不是原始 API 返回,而是经清洗、标准化、注入上下文后的结构化数据(如:{"tool": "weather_api", "result": {"temp": 25}, "status": "success"}) | 开发者急于验证功能,跳过数据管道建设,导致 Reflection 无法解析原始 JSON |
跳步检测:
洞见一:Agent 的本质是认知架构,不是能力叠加
洞见二:Observation 是 Agent 的“呼吸阀”,Reflection 是其“进化开关”
洞见三:Memory 的工程价值远超“记住对话”
行动指南:请用纸笔完成一次 “外卖订单状态查询”Agent 的 PPOA 循环设计。
操作步骤:
get_order_status(order_id);③ 生成状态描述(配送中/已送达/异常)。get_order_status 的 mock 返回:{"status": "out_for_delivery", "eta": "13:45", "driver_name": "张师傅"}。{"error": "order_not_found"},写出你的 Reflection 与 Revised Plan(如:“查用户所有订单→按时间筛选→重试”)。检验标准:当你能清晰标注每步的输入/输出/状态变更,并为失败场景设计至少 2 种 Recovery Path 时,说明已掌握 PPOA 本质。
进阶挑战:在上述设计中,加入 长期 Memory——若用户历史订单 70% 出现“配送延迟”,则在 Reflection 阶段自动添加安抚话术:“预计稍有延迟,我们已加急处理”。
get_meeting_notes(id) 调用指令。get_meeting_notes(id) 指令)提供关键输入;extract_action_items 工具)。AI Agent 不是“更聪明的 LLM”,而是对人类问题解决能力的系统性建模——它通过记忆(Memory)、规划(Planning)、行动(Action)和工具调用(Tool Use)四大组件,将单次“输入→思考→输出”的静态响应,升级为“感知→规划→行动→观察→反思→再规划”的闭环智能体。
AI Agent
Memory
Planning
💡 如何将这份知识化为己有?
这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。
它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。
🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。
🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月
🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取