谛听官方博客
官网首页
官网首页
  1. AI大模型基础课程
  • 快速开始
    • 概述
  • 使用教程
    • B站多P合集视频批量提取文案,2天学完一门课通过考试
  • 费曼教学
    • AI大模型基础课程
      • 01 大模型应用开发入门:从零理解人工智能与大语言模型的底层逻辑
      • 02大模型应用场景深度解析:从概率本质到实践能力图谱
      • 03Gradio:大模型开发者的极速UI验证框架
      • 04 提示工程:从随心所欲到系统化可控的大模型交互科学
      • 05大模型工作流程:从输入到输出的完整认知地图
      • 06AI Agent 深度解析与工程实践:从认知原理到个性化定制
      • 07AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱
      • 08 智能体(Agent)决策流程的具象化教程:以智能家居温控系统为范例
      • 09智能体规划能力深度解析:从人类思维到思维链、自洽性与思维树的演进路径
      • 10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计
      • 11AI Agent记忆机制:从人类认知到工程实现的完整学习教程
      • 12Agent 工具系统:从概念到实践的完整认知框架
      • 13AI Agent核心认知框架精讲:Plan-and-Execute(P&E)、Self-Ask、Think-and-Act、ReAct 四大范式深度解析
      • 14Agent认知框架进阶:SF²(Self-Questioning & Self-Verification)深度教程
      • 15AI Agent认知框架:Thinking & Self-Reflection(思考与自我反思)深度教程
      • 16React 框架深度教程:从思考-行动-观察闭环到可落地的 Agent 构建
      • 17构建可干预、可调试的 RAG Agent:LlamaIndex 实战教程(React + 财报分析场景)
    • 提示词工程基础课程
      • 提示词工程核心三要素:准确性、自由度、效率——从原理到实践
    • 其他
      • 王阳明心学核心修炼:励志即立心——构建人生根本标准的完整教程
  1. AI大模型基础课程

11AI Agent记忆机制:从人类认知到工程实现的完整学习教程

【视频】12. 【进阶篇】11.Agent记忆(memory)#

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297690
⏱️ 视频时长: 00:11:19

💡 费曼教学(深度版)#

AI Agent记忆机制:从人类认知到工程实现的完整学习教程#

核心洞见(顶层结论)#

AI Agent没有生物学意义上的“记忆”,其所谓记忆是通过三层信息处理架构——预训练形成的长期知识、上下文承载的短期工作记忆、外部向量数据库支撑的持久化长期记忆——协同模拟人类记忆功能的技术实现。
为什么这个洞见重要:它彻底破除了“大模型会‘记住’对话”的常见误解,揭示了AI Agent记忆的本质是可设计、可拆解、可优化的工程系统,而非黑箱能力;掌握这一认知,是构建高可用、可解释、可迭代智能体的底层前提。

学习目标#

完成本教程学习后,你将能够:
1.
清晰理解并准确解释人类记忆的三阶段模型(感觉记忆→短期记忆→长期记忆)及其神经认知基础
2.
清晰理解并准确解释AI Agent中“记忆”的三大技术对应物(预训练参数→上下文窗口→向量数据库)及其设计逻辑
3.
清晰理解并准确解释短期记忆与长期记忆在工程实现中的根本区别:临时性 vs 持久性、上下文耦合 vs 独立检索、无状态 vs 有身份标识
4.
运用这些概念分析实际AI Agent产品中的记忆失效问题(如“忘记前文”“跨会话无法延续”“知识过载导致响应变慢”)
5.
向他人清晰解释:为什么说“给LLM加记忆”不是添加一个模块,而是重构整个信息流架构
核心知识点:
人类记忆的认知分层模型(感觉记忆 / 短期记忆 / 长期记忆)
AI Agent记忆的工程三层架构(形成记忆 / 短期记忆 / 长期记忆)
短期记忆的容器化实现原理(上下文生命周期管理)
长期记忆的向量化抽象机制(语义嵌入 + 向量检索)
记忆优化的核心矛盾:完整性 vs 效率性、保真度 vs 概括性

1. 背景与问题(Situation)#

本教程直面当前AI Agent开发中最普遍却最被忽视的底层困境:开发者将“记忆”视为LLM的自然属性,而非需主动设计的系统能力。这导致大量Agent产品出现“健忘症”——无法维持多轮对话上下文、跨会话无法识别用户身份、历史经验无法沉淀复用。
常见困境:
用户问:“刚才我说的方案A,和你推荐的方案B,哪个更适合中小型企业?” → Agent完全不记得“方案A”是什么
同一用户第二天再次提问:“上次你帮我查的XX政策最新版本是?” → Agent当作全新会话处理
Agent在长对话中响应越来越慢、答案越来越空泛 → 上下文膨胀导致推理失焦
核心挑战:
学习者难以区分“人类记忆的生物学机制”与“AI Agent的记忆工程映射”
工程实践中混淆“短期记忆”(上下文)与“长期记忆”(向量库)的技术边界,导致架构耦合、性能瓶颈、数据泄露风险

2. 概念地图(顶层设计)#

从视频中识别出AI Agent记忆机制的三大核心概念,每项均对应人类记忆模型的工程转译:
概念一句话定义解决问题
形成记忆(Formation Memory)大语言模型通过海量文本预训练固化于权重参数中的世界知识,是静态、不可实时更新的“先天知识库”解决Agent“从零开始不知道任何事”的冷启动问题,提供基础语义理解能力
短期记忆(Short-Term Memory)在单次任务执行过程中,由输入上下文(prompt)动态承载的临时信息,生命周期严格绑定于当前推理请求解决多轮对话中“上下文连贯性”问题,确保Agent能理解“刚才发生了什么”
长期记忆(Long-Term Memory)通过向量数据库持久化存储的用户专属知识(对话摘要、偏好、历史操作),支持跨会话、跨用户的身份化检索与复用解决“用户个性化”与“经验沉淀”问题,让Agent具备“越用越懂你”的成长性

3. 核心概念深度解析(金字塔底层支撑)#

3.1 形成记忆(Formation Memory)#

生活比喻:想象人类婴儿的大脑——出生时神经元连接稀疏,但通过持续观察世界(看、听、触摸),逐渐建立起对“杯子”“走路”“疼痛”等概念的神经表征。大模型的预训练,就是让AI“看遍互联网”后,在参数中固化下对“量子力学”“莎士比亚”“Python语法”的统计关联模式。
一句话定义:形成记忆是大语言模型在预训练阶段,通过反向传播调整数十亿参数,将人类知识压缩为高维语义空间中稠密向量表示的过程;它不存储原始文本,只保存词语/概念间的概率关联。
核心要点(MECE原则):
1.
静态性:一旦训练完成,参数即冻结(除非微调),无法在推理时新增事实(如“2024年奥运会举办地”若未出现在训练数据中,则模型无法“学会”)
2.
概率性:回答非基于“回忆事实”,而是基于语义相似度的最可能续写(例:问“巴黎是哪国首都?”,模型并非查表,而是根据“巴黎”与“法国”在训练语料中高频共现的统计规律生成答案)
3.
广谱性:覆盖全领域常识,但精度有限——它知道“光合作用需要光”,但可能说错叶绿体中具体酶的名称
常见误区:
❌ 误区:“GPT-4记得我昨天问的问题”
✅ 正确理解:GPT-4没有任何“我”或“昨天”的概念;所有回答仅依赖当前输入的token序列
⚠️ 为什么容易出错:人类将“流畅回答连续问题”误判为“有记忆”,实则是上下文窗口(短期记忆)在起作用
实际应用:在Agent架构中,形成记忆是不可替代的基础底座。当需要快速响应通用问题(如“解释TCP三次握手”)时,直接调用LLM的形成记忆即可,无需额外查询外部库。

3.2 短期记忆(Short-Term Memory)#

生活比喻:就像厨师在炒菜时,把盐、糖、酱油暂时放在灶台边的小碟子里——这些调料只为此道菜服务,菜出锅后碟子就清空。短期记忆就是Agent的“灶台小碟”,存放当前任务必需的临时信息。
一句话定义:短期记忆是AI Agent通过将当前会话历史(用户提问、工具返回、中间思考)拼接进LLM输入上下文(prompt),从而让模型在单次推理中感知对话状态的技术机制。
核心要点(MECE原则):
1.
容器化实现:技术上表现为一个内存中的列表(如Python list),每次新交互追加元素,任务结束即销毁(如Docker容器未持久化时重启即清空)
2.
生命周期严格绑定:仅存活于一次HTTP请求或一次函数调用周期内;关闭浏览器标签、切换App页面、甚至刷新页面都会导致丢失
3.
容量硬约束:受LLM上下文长度限制(如GPT-4 Turbo为128K tokens),超长对话必须压缩/截断/摘要,否则直接报错
常见误区:
❌ 误区:“只要我把所有聊天记录塞进prompt,Agent就有长期记忆了”
✅ 正确理解:这是用短期记忆模拟长期记忆,代价是上下文爆炸、成本飙升、响应延迟、关键信息被淹没
⚠️ 为什么容易出错:开发者低估了上下文长度对推理质量的边际效应——最后20%的token往往决定答案是否准确
实际应用:在客服Bot中,短期记忆用于维护单次咨询的完整脉络:“用户投诉订单#12345物流超时→查询物流API返回‘派送中’→用户追问‘预计何时送达?’→需结合前序API结果回答”。此时所有信息必须在单次prompt中显式传递。

3.3 长期记忆(Long-Term Memory)#

生活比喻:如同个人笔记软件(如Notion)——你把重要会议纪要、客户偏好、项目待办分门别类存入不同数据库,并打上标签(#客户A #需求 #紧急)。当新任务触发时,系统自动检索相关笔记片段,插入当前工作流。
一句话定义:长期记忆是AI Agent通过向量数据库(如Chroma、Pinecone)将用户历史交互摘要编码为高维向量,支持基于语义相似度的跨会话、跨任务精准检索与注入的技术系统。
核心要点(MECE原则):
1.
身份化存储:每条记忆绑定用户ID、会话ID、时间戳,实现“张三的咖啡偏好”与“李四的过敏史”物理隔离
2.
向量化抽象:原始对话被LLM提炼为摘要(如“用户确认预算≤5万,倾向SaaS部署,关注数据合规”),再经嵌入模型(Embedding Model)转为向量,丢弃无关细节
3.
检索增强生成(RAG):当新问题到来,先用相同嵌入模型将问题向量化,在向量库中检索Top-K最相关记忆片段,拼接进当前prompt作为补充上下文
常见误区:
❌ 误区:“长期记忆就是把所有聊天记录原样存进数据库”
✅ 正确理解:原始日志是噪音源,必须经过摘要→向量化→去重→时效过滤四步净化,否则检索结果充斥冗余信息
⚠️ 为什么容易出错:开发者忽略“语义检索≠关键词匹配”——存1000条“喜欢苹果手机”记录,不如1条精准摘要“用户明确拒绝安卓生态,iOS深度用户,配件预算≥2000元”
实际应用:在企业销售助手场景中,当新客户咨询“你们CRM支持微信小程序吗?”,系统自动检索该客户历史记录,发现其技术负责人曾留言“我们小程序日活50万,需保障消息100%到达”,于是Agent回复重点转向高并发推送架构设计,而非泛泛介绍基础功能。

4. 概念关系图(金字塔层级结构)#

4.1 层级结构#

层级概念作用支撑关系
顶层长期记忆解决Agent个性化与持续进化问题,赋予产品“越用越懂你”的核心竞争力由以下两层共同支撑:①形成记忆提供语义理解底座;②短期记忆提供实时上下文锚点
中层短期记忆提供单次任务内的状态连贯性,是长期记忆与形成记忆的“实时翻译器”由以下要点支撑:①上下文拼接机制;②生命周期管理策略(如滑动窗口/摘要压缩);③会话ID路由
底层形成记忆提供零样本理解能力,是所有记忆操作的语义基础设施构成底层逻辑:①参数即知识;②推理即语义检索;③无显式存储

4.2 逻辑链条#

形成记忆 → 为 短期记忆 提供语义解码能力(使Agent能理解“物流超时”“SaaS部署”等术语)
短期记忆 + 形成记忆 → 共同支撑 长期记忆 的构建(短期记忆提供原始素材,形成记忆提供摘要与嵌入能力)
长期记忆 → 最终解决 用户个性化服务 问题(跨会话识别意图、预测需求、规避重复提问)

4.3 因果关系#

原因结果作用机制
短期记忆容量不足(如强制塞入100轮对话)LLM响应质量断崖下降上下文过长导致注意力机制聚焦失效,关键信息被稀释
长期记忆未做摘要(存原始聊天记录)检索结果噪声大、匹配不准向量空间中“你好”与“您好”语义距离远,而摘要后统一为“用户问候”向量
形成记忆知识陈旧(未接入实时数据)Agent给出过时答案(如“新冠疫苗需每年接种”)预训练数据截止时间即知识有效期,需靠长期记忆+RAG注入实时信息

5. 知识路径(学习路线图)#

1.
起点:理解 形成记忆
关键理解点:LLM的“知识”本质是参数化的统计规律,非数据库式存储
常见卡点:纠结“模型到底记没记住某件事”,需建立“概率生成”思维
2.
中点:掌握 短期记忆
关键理解点:上下文=显式传参,不是模型内在能力;必须手动管理生命周期
突破方法:用print(prompt)调试,观察token计数,实践滑动窗口截断策略
3.
终点:应用 长期记忆
关键应用场景:用户身份识别、历史偏好调用、跨会话任务延续(如“继续上周未完成的合同起草”)
效果验证:当用户说“按上次说的方案B修改第三条”,Agent能精准定位并操作对应条款

6. 概念对比矩阵(易混淆概念辨析)#

对比维度短期记忆长期记忆核心区别
定义单次请求内,通过prompt上下文承载的临时信息跨会话持久化存储的用户专属知识,通过向量数据库检索存在形态:内存变量 vs 独立数据库
核心特征生命周期短(毫秒级)、无用户ID绑定、容量受限生命周期长(永久)、强用户ID绑定、容量弹性扩展身份意识:无状态 vs 有身份
工作原理LLM原生支持,无需额外组件需集成向量数据库+嵌入模型+RAG编排逻辑技术栈:Prompt Engineering vs MLOps Pipeline
适用场景单轮复杂推理(如代码调试)、多步任务跟踪(如订机票三步)用户画像构建、个性化推荐、知识沉淀(如客服FAQ自动生成)时间尺度:瞬时 vs 持久
优势实现简单、零延迟、100%保真(原文本)支持海量数据、跨会话复用、可人工审核修正可控性:高(开发者全掌控) vs 中(需数据治理)
局限无法跨请求延续、成本随长度线性增长、易信息过载检索可能遗漏、摘要损失细节、首次检索有延迟可靠性:确定性 vs 概率性
核心区别总结:短期记忆是“当前工位上的草稿纸”,长期记忆是“个人云笔记库”——前者服务于单次思考,后者服务于终身学习。
容易混淆的原因:两者最终都体现为“向LLM输入更多文本”,但技术实现、生命周期、所有权归属截然不同。
记忆技巧:Short-term = Single-session(单会话),Long-term = Lifetime-user(用户终身)

7. 类比理解搭建(抽象具象化)#

抽象概念具体事物类比映射适用说明
形成记忆图书馆藏书目录目录本身不包含书籍内容,但告诉你“量子力学”相关书籍在A区3架,且A区3架的书大概率讨论同一主题适用于解释“为何LLM能答出未见过的问题”——它没读原书,但知道去哪里找线索
短期记忆会议白板白板内容随会议结束被擦除;多人围看时,所有人看到同一块板;写满后必须擦掉旧内容腾位置适用于解释“为何刷新页面就忘记前文”——白板被重置了
长期记忆个人知识管理软件(Obsidian)每篇笔记带双向链接;搜索“客户A”自动聚合所有相关笔记;可设置“仅对我可见”权限适用于解释“如何实现用户数据隔离与精准检索”
相似点:三者都服务于“信息调用”,目标都是让Agent更准确响应。
不同点(重要):形成记忆是“公共目录”,短期记忆是“临时白板”,长期记忆是“私人云盘”——混淆三者权限会导致严重数据泄露。
类比局限性:人类记忆存在遗忘曲线、情感强化等机制,而AI记忆是纯技术系统,无生物衰减;故不能用“人会忘,AI不会忘”简单类比——AI的“不遗忘”恰是需主动设计的工程特性。

8. 盲点识别(防坑指南)#

潜在盲点(学习者易误解)正确理解为什么容易出错
认为“LLM微调=给它添加记忆”微调只能调整参数分布,无法注入新事实;新增知识必须通过RAG或持续预训练将“调整模型行为”与“增加知识库存”混淆,忽略微调的数据集规模限制
默认短期记忆能自动跨会话短期记忆严格绑定HTTP请求;跨会话需显式传递会话ID并查库重建上下文开发者习惯Web开发中的Session机制,误以为LLM天然支持
认为向量检索100%精准匹配语义向量空间存在“语义鸿沟”,同义词(如“手机”vs“移动电话”)可能距离很远,需靠摘要预处理弥合忽略嵌入模型的领域适配性,未测试专业术语的向量化效果
认为长期记忆越多越好未过滤的原始日志会污染向量空间,导致检索召回噪音;需建立“记忆准入标准”(如仅存用户明确声明的偏好)将“数据积累”等同于“能力提升”,忽视信息质量 > 信息数量
跳步检测:
默认观众知道但实际需要解释:嵌入模型(Embedding Model)的工作原理——它不是魔法,而是将文本映射到数学空间的神经网络,效果取决于训练数据与领域适配
行话/术语未解释:RAG(Retrieval-Augmented Generation)——先检索(Retrieve)外部知识,再生成(Augment)答案,是连接长期记忆与LLM的桥梁
因果链断裂:未说明“为何摘要比存原文更好”——原文向量化后语义稀疏(“你好”和“您好”向量不同),摘要则统一为“用户问候”向量,大幅提升检索鲁棒性

9. 核心洞见(价值提炼)#

1.
洞见一:记忆不是LLM的属性,而是Agent的架构设计
颠覆认知:传统认知“大模型越大会越聪明”,新认知“大模型只是引擎,记忆架构才是整车设计”
实际价值:避免盲目堆算力,转向精益架构——用1/10成本实现2倍用户体验提升
2.
洞见二:短期记忆与长期记忆的边界,就是产品可靠性的生命线
颠覆认知:短期记忆失效导致“单次体验差”,长期记忆失效导致“用户信任崩塌”(如反复询问已告知的邮箱)
实际价值:在资源有限时,优先保障长期记忆的准确性与安全性,而非追求短期记忆长度
3.
洞见三:形成记忆的“不可修改性”,恰恰是AI可信的基石
颠覆认知:人类记忆可被暗示篡改,而LLM形成记忆一旦固化,其输出偏差可归因于训练数据,而非主观意图
实际价值:为AI审计提供确定性——当Agent出错,可追溯至预训练数据缺陷,而非“模型撒谎”

10. 学以致用(实践指南)#

行动指南:请为你的AI Agent产品设计一份《记忆健康度检查清单》
操作步骤:
1.
第一步:识别记忆类型——列出当前产品中所有被称作“记忆”的功能,标注属于短期/长期/形成记忆中的哪一类
2.
第二步:验证生命周期——对每个短期记忆点,模拟用户刷新页面/切换设备,确认信息是否丢失;对每个长期记忆点,检查是否绑定用户ID且加密存储
3.
第三步:压力测试容量——用100轮对话压测短期记忆,记录token消耗与响应质量拐点;用1000条历史记录压测长期记忆检索延迟
4.
第四步:审计信息质量——随机抽取10条长期记忆摘要,人工评估是否准确反映用户真实意图(如“用户说‘价格太贵’”摘要为“预算敏感型客户”是否合理)
检验标准:当你能清晰说出“XX功能依赖短期记忆,因此必须在前端维护会话ID;YY功能依赖长期记忆,因此需在后端集成ChromaDB并设置TTL过期策略”时,说明已经掌握
进阶挑战:实现“记忆自愈”——当检测到长期记忆检索失败率>5%,自动触发摘要重生成流程,调用LLM重新提炼用户历史

11. 费曼检验清单(检验内化程度)#

11.1 一句话解释测试#

形成记忆:大模型在预训练中把世界知识压缩成参数里的统计规律,像一本永远不翻页的百科全书
短期记忆:每次提问时,把之前的对话一股脑塞进LLM的“阅读材料”里,关掉页面就清空
长期记忆:给每个用户建个专属云笔记,用AI自动写摘要、打标签,下次提问时智能弹出相关内容

11.2 类比有效性评估#

类比:长期记忆 = Notion笔记库 [贴切] —— 因为都支持双向链接、权限控制、语义搜索
改进建议:需强调Notion需手动写笔记,而AI长期记忆是全自动摘要,避免用户误解为需人工运营

11.3 应用场景测试#

如果遇到“用户说‘按上个月方案调整预算’”,你会:①用用户ID查长期记忆,定位上月方案摘要;②提取其中预算数字;③将新预算值注入当前prompt生成修订版
[概念A]短期记忆 和 [概念B]长期记忆 应该如何配合使用?——短期记忆承载本次修改操作(如“把预算从5万调到6万”),长期记忆存储修改后的方案全文,下次用户问“当前方案”时直接召回

11.4 逻辑链条测试#

形成记忆(提供“预算”“方案”等术语理解)→ 短期记忆(记住本次对话中“上个月方案”指代的具体文档ID)→ 长期记忆(根据ID检索出方案全文,注入新prompt生成修订)

知识点总结(金字塔回顾)#

顶层结论回顾#

AI Agent没有生物学意义上的“记忆”,其所谓记忆是通过三层信息处理架构——预训练形成的长期知识、上下文承载的短期工作记忆、外部向量数据库支撑的持久化长期记忆——协同模拟人类记忆功能的技术实现。

核心概念回顾#

1.
形成记忆
定义:预训练固化于参数中的世界知识,是静态、概率性、广谱性的语义底座
核心要点:不可实时更新、非事实存储、提供零样本理解
应用场景:回答通用常识问题,无需外部查询
2.
短期记忆
定义:通过prompt上下文动态承载的临时信息,生命周期绑定单次请求
核心要点:容器化实现、硬容量限制、无用户身份
应用场景:多轮对话状态维护、单次复杂任务分解
3.
长期记忆
定义:以用户ID为键、向量数据库为载体的持久化知识库,支持语义检索
核心要点:身份化存储、摘要驱动、RAG增强
应用场景:个性化服务、跨会话延续、经验沉淀复用

关键逻辑回顾#

形成记忆 → 为 短期记忆 提供语义解码能力
短期记忆 + 形成记忆 → 共同支撑 长期记忆 的构建与检索
长期记忆 → 最终解决 用户个性化服务 这一核心产品问题

学习成果检验#

☐ 能用简单语言解释核心概念(如向非技术人员说明“为什么APP会忘记我上周说的话”)
☐ 能说清概念之间的逻辑关系(如指出“增加上下文长度不能替代长期记忆”)
☐ 能在实际场景中应用这些概念(如设计客服Bot的记忆架构)
☐ 能向他人清晰讲解这些内容(如向产品经理阐述记忆模块的技术选型依据)


💡 如何将这份知识化为己有?
这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。
它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。
🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。
🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月

🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取
修改于 2026-02-20 12:10:27
上一页
10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计
下一页
12Agent 工具系统:从概念到实践的完整认知框架
Built with