谛听官方博客
官网首页
官网首页
  1. AI大模型基础课程
  • 快速开始
    • 概述
  • 费曼教学
    • AI大模型基础课程
      • 01 大模型应用开发入门:从零理解人工智能与大语言模型的底层逻辑
      • 02大模型应用场景深度解析:从概率本质到实践能力图谱
      • 03Gradio:大模型开发者的极速UI验证框架
      • 04 提示工程:从随心所欲到系统化可控的大模型交互科学
      • 05大模型工作流程:从输入到输出的完整认知地图
      • 06AI Agent 深度解析与工程实践:从认知原理到个性化定制
      • 07AI Agent 核心概念与决策流程:从人类思维到工程实现的完整图谱
      • 08 智能体(Agent)决策流程的具象化教程:以智能家居温控系统为范例
      • 09智能体规划能力深度解析:从人类思维到思维链、自洽性与思维树的演进路径
      • 10AI Agent思维链增强:从24点问题看思维树(Tree of Thoughts)与ReAct框架的协同设计
      • 11AI Agent记忆机制:从人类认知到工程实现的完整学习教程
      • 12Agent 工具系统:从概念到实践的完整认知框架
      • 13AI Agent核心认知框架精讲:Plan-and-Execute(P&E)、Self-Ask、Think-and-Act、ReAct 四大范式深度解析
      • 14Agent认知框架进阶:SF²(Self-Questioning & Self-Verification)深度教程
      • 15AI Agent认知框架:Thinking & Self-Reflection(思考与自我反思)深度教程
      • 16React 框架深度教程:从思考-行动-观察闭环到可落地的 Agent 构建
      • 17构建可干预、可调试的 RAG Agent:LlamaIndex 实战教程(React + 财报分析场景)
    • 提示词工程基础课程
      • 提示词工程核心三要素:准确性、自由度、效率——从原理到实践
    • 其他
      • 王阳明心学核心修炼:励志即立心——构建人生根本标准的完整教程
  1. AI大模型基础课程

05大模型工作流程:从输入到输出的完整认知地图

【视频】5. 【基础篇】4.大模型的工作流程

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297701
⏱️ 视频时长: 00:11:08


💡 费曼教学(深度版)

大模型工作流程:从输入到输出的完整认知地图

核心洞见(顶层结论)

大模型并非“理解”语言,而是通过“分词→映射→自回归预测”三步机械流程,将人类文本转化为数字序列,再逐token概率化生成响应——其本质是统计驱动的语言模式续写器。

为什么这个洞见重要:打破“AI会思考”的直觉幻觉,建立对大模型能力边界与失效根源的理性认知,是安全、高效、可解释地使用和调试大模型的前提。


学习目标

完成本教程学习后,你将能够:

  1. 清晰理解并准确解释分词化(Tokenization) 的原理、目的与多语言适配逻辑
  2. 清晰理解并准确解释词表映射(Vocabulary Lookup) 如何将文本符号转化为模型可计算的数值ID
  3. 清晰理解并准确解释自回归生成(Autoregressive Generation) 的迭代预测机制与终止条件
  4. 运用这些概念分析实际场景中“回答不相关”“中文效果差”“输出卡住”等典型问题
  5. 向他人清晰解释:为什么大模型“读不懂中文句子”,却能“写出通顺英文段落”

核心知识点:

  • 分词化(Tokenization)
  • 词表(Vocabulary)与Token ID
  • 自回归生成(Autoregression)
  • 颗粒度(Granularity)与分词策略
  • 特殊Token(如EOS、PAD)

1. 背景与问题(Situation)

视频从宏观IO流切入,聚焦大模型最基础但最常被忽略的底层机制:文本如何进入模型?模型又如何“吐出”文字?
这不是黑箱推理,而是可拆解、可干预、可诊断的确定性流程。

常见困境:

  • 提问中文时答案生硬,换英文反而更流畅 → 不知源于分词策略差异
  • 输出突然中断或重复 → 不知受EOS Token或长度阈值控制
  • 调试Prompt无效 → 不知问题可能出在Token边界(如标点未被分出)

核心挑战:

  • 将抽象的“语言处理”具象为可观察、可测量、可调试的数字操作流
  • 理解“分词不是切词,而是构建语义最小计算单元”的工程本质

2. 概念地图(顶层设计)

概念一句话定义解决问题
分词化(Tokenization)将原始文本按预设规则切分为离散、不可再分的语义/语法最小单元(Token),是文本数字化的第一道闸门解决“机器无法直接处理字符串”的根本矛盾,为后续数值计算奠基
词表映射(Vocabulary Lookup)将每个Token查表转换为唯一整数ID(Token ID),使文本成为模型可接收的数值向量序列解决“模型只认数字、不识文字”的输入兼容性问题,建立文本与向量空间的确定性桥梁
自回归生成(Autoregressive Generation)模型基于当前所有已生成Token ID,逐个预测下一个最可能Token ID,并循环追加、迭代推进,直至触发终止信号解决“如何从静态输入生成动态、连贯、有长度的输出文本”这一核心任务

3. 核心概念深度解析(金字塔底层支撑)

3.1 分词化(Tokenization)

生活比喻:想象把一本中文《红楼梦》翻译成摩斯电码——你不会把整本书当一个信号发出去,而是先拆成单字(“贾”“宝”“玉”),再为每个字分配唯一电码(·− ·−− −·)。分词器就是这位“语言电报员”。

一句话定义:分词化是将自然语言文本按语言特性与计算效率权衡,切分为模型可处理的最小离散单元(Token)的过程。

核心要点(MECE原则):

  1. Token是计算单元,非语义单元:一个Token可以是单词(the)、子词(un+happy)、标点(.)、甚至单个汉字(中),只要它在词表中拥有独立ID即成立。
  2. 颗粒度决定能力边界:
    • 词级分词(Word-level):适合空格分隔语言(英语),但无法处理新词(如 ChatGPT);
    • 字级分词(Character-level):中文常用,保全所有字符,但丢失词义组合(“人工” vs “人”+“工”);
    • 子词分词(Subword-level,如Byte-Pair Encoding):平衡二者,将高频子串(ing, ed, un-)作为Token,既覆盖新词又压缩词表——现代大模型主流方案。
  3. 标点符号是语义一等公民:句号(.)、问号(?)、引号(")均被独立分词,因其承载语气、句法结构等关键信息,忽略它们等于删除半句含义。

常见误区:

  • ❌ 误区:“分词就是按空格切单词”
  • ✅ 正确理解:分词是有词表约束的、带语言知识的、可配置的编码过程;英语中 “don’t” 可能被分为 ["don", "’t"],中文 “Transformer” 可能被拆为 ["Trans", "former"]。
  • ⚠️ 为什么容易出错:人类阅读依赖上下文补全,而模型严格依赖Token边界;一个未被词表收录的罕见词,会被强行拆解,导致语义断裂。

实际应用:当你发现模型对专业术语(如 “BERTology”)回答错误时,应首先检查该词是否被合理分词——若被拆为 ["BERT", "ology"],模型就失去了对新概念的整体认知。

3.2 词表映射(Vocabulary Lookup)

生活比喻:如同给班级每位学生发一张带编号的学生证(ID),老师点名时不喊名字,只念ID号(“请ID 27的同学发言”)。词表就是这本《学生证编号对照册》,映射确保“i”永远对应ID 101,“.”永远对应ID 999。

一句话定义:词表映射是将分词后的每个Token,通过查表(Lookup Table)转换为固定整数ID的操作,形成模型输入所需的数值序列。

核心要点:

  1. 词表是静态快照,非无限字典:每个模型训练前固化词表(如LLaMA-3词表含128,256个Token),超出则触发 (未知Token)或强制子词拆分。
  2. Token ID是模型唯一的“语言”:模型内部无“apple”概念,只有向量空间中ID 5423所对应的嵌入(Embedding);所有计算(注意力、前馈)均在此ID序列上进行。
  3. 特殊Token是流程控制器:
    • (Start of Sequence):标记输入开始;
    • (End of Sequence):标记输出结束(视频中称EOC);
    • (Padding):填充短序列至统一长度,计算时屏蔽。

常见误区:

  • ❌ 误区:“词表越大越好,能收更多词”
  • ✅ 正确理解:词表过大 → 嵌入层参数爆炸 → 训练成本剧增;过小 → 未登录词(OOV)增多 → 语义失真。最优词表是语言特性与算力的帕累托前沿。
  • ⚠️ 为什么容易出错:用户输入“张三丰”,若词表无此名,可能被拆为 ["张", "三", "丰"],模型便按三个独立字生成,失去专有名词的实体一致性。

实际应用:调试中文Prompt效果差时,用tokenizer.encode("你的中文句子")查看实际Token ID序列——若出现大量单字ID(如[123, 456, 789]),说明子词分词失效,需优化输入或切换分词器。

3.3 自回归生成(Autoregressive Generation)

生活比喻:像一位只看自己刚写下的前文、从不回看全文的速记员。老板说“请总结会议要点”,他写下第一个词(“本次”),立刻根据这个词预测下一个最可能词(“会议”),再根据“本次会议”预测下个(“讨论了”)……直到写满一页或看到“完”字才停笔。

一句话定义:自回归生成是模型以“已生成Token序列”为条件,每次仅预测下一个Token ID,并将预测结果追加至序列、作为下次输入,循环直至满足终止条件的确定性解码过程。

核心要点:

  1. 严格单向依赖:第 t 步预测仅依赖位置1~t的Token ID,绝不知晓未来内容——这是Transformer解码器的因果掩码(Causal Mask)强制保障的。
  2. 概率化而非确定性:模型输出是所有可能Token的概率分布(如:“的”=42%, “了”=28%, “吗”=15%),实际选取常采用:
    • 贪婪搜索(Greedy Search):取最高概率Token(最快,但易陷入局部最优);
    • 束搜索(Beam Search):保留Top-K候选路径(更优,但耗资源);
    • 采样(Sampling):按概率随机抽取(更自然,需温度系数调节)。
  3. 终止是硬性指令:停止条件有两个:
    • Token被采样(模型“主动说结束”);
    • 最大长度阈值达到(如512或8192个Token,系统“强制截断”)。

常见误区:

  • ❌ 误区:“模型一次性想好整段话再输出”
  • ✅ 正确理解:无全局规划,只有局部贪心。输出卡顿、重复、逻辑断裂,常因某步高概率预测了错误Token(如反复生成 “嗯…”),后续无法挽回。
  • ⚠️ 为什么容易出错:用户期待“思考后作答”,但模型只是“边写边猜”。长文本生成质量随长度指数衰减,因误差逐轮累积。

实际应用:当输出出现“... ... ...”无限循环时,大概率是模型在某步持续高概率预测了 或 Token;此时应检查Prompt是否引导不足,或降低采样温度(temperature)增强确定性。


4. 概念关系图(金字塔层级结构)

4.1 层级结构

层级概念作用支撑关系
顶层自回归生成解决“如何生成连贯文本”这一终极任务由词表映射提供输入ID序列,由分词化确保输入有效
中层词表映射提供模型可计算的数值接口由分词化产出Token,由词表提供ID查表能力
底层分词化构建语言到计算单元的转换桥梁由语言特性(中/英/法)与词表设计共同决定

4.2 逻辑链条

  • 分词化 → 为词表映射提供合法Token输入(无Token则无ID)
  • 词表映射 + 词表 → 共同构成自回归生成的输入序列(无ID序列则无预测起点)
  • 自回归生成 → 最终解决大模型IO流闭环(输入文本 → 输出文本)

4.3 因果关系

原因结果作用机制
中文采用字级分词(颗粒度细)词表ID序列长、上下文窗口易耗尽单字Token信息密度低,需更多Token表达同义内容
英文采用子词分词(颗粒度粗)新词泛化能力强、序列更短“unhappiness” 拆为 ["un", "happiness"],复用已有子词嵌入
某步预测 概率突升输出提前终止模型认为当前上下文已充分回答,触发终止逻辑

5. 知识路径(学习路线图)

  1. 起点:理解 分词化是语言数字化的必经闸门

    • 关键理解点:Token不是“词”,而是“模型能吃的最小食物单位”;标点必须入Token。
    • 常见卡点:误以为“中文分词=结巴分词”,忽视大模型多用字/子词混合策略。
  2. 中点:掌握 词表映射构建ID序列的确定性

    • 关键理解点:所有NLP任务始于 tokenizer.encode(),终于 tokenizer.decode();ID序列是模型唯一真相。
    • 突破方法:用Hugging Face transformers 库实操:tokenizer("I love NLP!") → 观察输出ID列表与tokenizer.convert_ids_to_tokens()反查。
  3. 终点:应用 自回归生成解释一切输出行为

    • 关键应用场景:诊断“回答跑题”(初始Token预测偏差)、“输出截断”(长度阈值触达)、“重复啰嗦”(某Token概率持续过高)。
    • 效果验证:能手动模拟3步生成(如输入 “The sky is” → 预测 “blue” → 输入 “The sky is blue” → 预测 “.”),并说出每步依据。

6. 概念对比矩阵(易混淆概念辨析)

对比维度分词化(Tokenization)词干提取(Stemming)词形还原(Lemmatization)
定义将文本切分为模型可计算的离散单元粗暴截断词尾(running → run)基于词典返回词元(better → good)
核心特征产出Token(可为子词、标点、字),服务于数值计算无词表依赖,规则简单,精度低依赖词性标注与词典,精度高,速度慢
工作原理查词表、BPE合并、Unicode归一化后缀剥离规则(Porter算法)词性消歧 + 词典查询
适用场景大模型输入预处理(必需)传统搜索引擎关键词匹配NLP任务如情感分析、摘要(非LLM)
优势保全所有符号、支持多语言、可扩展新词极快、内存省语义准确、减少词汇稀疏
局限语言特性强(中/英策略迥异)、词表固化过度截断(university → univers)无法处理新词、依赖高质量词典

核心区别总结:分词化是为计算服务的编码过程,后两者是为语义分析服务的语言学简化;LLM不需要也不进行词干/还原,它直接在Token层面建模。
容易混淆的原因:三者都涉及“切分”,但目标函数完全不同——分词化优化的是模型训练稳定性与泛化性,而非人类可读性。
记忆技巧:Tokenization = Translation(文本→数字);Stemming = Surgery(粗暴切除);Lemmatization = Library(查词典)。


7. 类比理解搭建(抽象具象化)

抽象概念具体事物类比映射适用说明
Token乐高积木单块每块有唯一形状(代表语义),可拼接成任意结构(句子)解释为何不能随意增删Token——破坏物理连接(注意力机制)
词表(Vocabulary)乐高零件目录册目录记录每种积木的编号(ID)与实物图(Token)理解为何新积木(新词)需先入库(词表扩展)才能使用
自回归生成乐高拼搭直播主播只看已拼部分,每步选最顺手积木(概率最高),拼错无法拆(单向性)解释输出不可编辑、错误累积的本质

相似点:均强调模块化、可组合、依赖已有部件。
不同点(重要):乐高有物理约束(凸点凹槽),而Token间关系由注意力权重动态定义——同一Token在不同上下文中权重天差地别。
类比局限性:乐高拼搭是确定性过程,而自回归是概率采样;类比无法体现“温度系数”对创造性的调控。


8. 盲点识别(防坑指南)

潜在盲点(学习者易误解)正确理解为什么容易出错
“分词器是通用的,所有模型用同一套”分词器与模型强绑定:LLaMA用SentencePiece,GPT用Byte-Pair Encoding,中文Qwen用自研分词器;混用会导致ID错乱视频未提具体实现,易假设存在“标准分词”
“Token ID就是词频排名”ID无序性:ID 1000未必比ID 100更常用;ID顺序由词表构建算法(如BPE频率)决定,非人工排序人类习惯“1,2,3…”隐含序关系,而词表ID是哈希式索引
“模型能‘看到’整个输入再输出”解码器严格因果掩码:生成第5个Token时,模型视野仅限前4个ID,绝不知晓第6个及以后视频说“基于现有Token预测”,但未强调“现有”即“已生成且已固定”

跳步检测:

  • 默认观众知道但实际需要解释:BPE(Byte-Pair Encoding)算法原理(高频子串合并);因果掩码(Causal Mask)如何实现单向性(上三角矩阵置负无穷)
  • 行话/术语未解释:(End of Sequence)、temperature(采样随机性系数)、top-k sampling(限制候选集大小)
  • 因果链断裂:未说明“为何子词分词能泛化新词”——因新词可拆为词表内高频子串,其嵌入向量组合即近似新词语义。

9. 核心洞见(价值提炼)

  1. 洞见一:大模型没有“理解”,只有“匹配”

    • 颠覆认知:我们以为模型在“思考语义”,实则全程在匹配词表ID序列的概率模式。
    • 实际价值:解释为何模型会“一本正经胡说八道”——当输入Token序列触发高概率错误路径,它只是忠实地执行了统计规律。
  2. 洞见二:中文效能瓶颈在分词,不在模型

    • 颠覆认知:不是“中文模型弱”,而是字级分词导致信息密度低、上下文窗口浪费严重;子词分词(如ChatGLM的ZCP)可显著提升。
    • 实际价值:优化中文应用,优先尝试启用子词分词器,而非盲目增大模型参数。
  3. 洞见三:输出质量由第一步预测决定

    • 颠覆认知:“第一句话定生死”——因自回归误差不可逆,首Token选错(如将“解释”误为“列举”),后续全盘偏离。
    • 实际价值:Prompt工程核心是精准锚定首Token概率分布,用明确动词(“请定义”“请对比”“请生成JSON”)约束初始方向。

10. 学以致用(实践指南)

行动指南:用Hugging Face Transformers库,可视化一个中文句子的完整IO流。

操作步骤:

  1. 第一步:安装并加载分词器(如Qwen/Qwen2-1.5B-Instruct)
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-1.5B-Instruct")
    
  2. 第二步:对句子分词并映射ID
    text = "人工智能正在改变世界。"
    tokens = tokenizer.tokenize(text)  # 查看Token列表
    ids = tokenizer.encode(text)       # 查看ID序列
    print("Tokens:", tokens)
    print("IDs:", ids)
    
  3. 第三步:反查ID验证映射
    decoded = tokenizer.convert_ids_to_tokens(ids)
    print("Decoded:", decoded)  # 应与tokens高度一致
    
  4. 第四步:模拟自回归生成(简化版)
    # 假设ids=[1,2,3]为输入,模型预测下一个ID为4
    next_ids = ids + [4]
    output_text = tokenizer.decode(next_ids, skip_special_tokens=True)
    print("Output:", output_text)  # 观察新增Token如何改变语义
    

检验标准:当你能说出"人工智能"被分成了几个Token(如["人工", "智能"]或["人", "工", "智", "能"]),并解释该分法对模型理解“人工智能”作为专有名词的影响时,说明已经掌握。

进阶挑战:尝试将同一中文句子翻译为英文,对比tokenizer.encode()后的ID序列长度——验证“中文颗粒度细导致序列更长”的洞见。


11. 费曼检验清单(检验内化程度)

11.1 一句话解释测试

  • 分词化:把人说的话切成模型能吃的“数字零食”,每片零食(Token)在词表里有唯一编号。
  • 词表映射:查《零食编号手册》,把每片零食换成编号(ID),让模型只跟数字打交道。
  • 自回归生成:模型像打字机,每敲一个键(Token ID)就看已敲内容,猜下一个最该敲什么键,直到敲出“句号”或纸用完。

11.2 类比有效性评估

  • 类比:“分词器是语言电报员” 【贴切】— 电报员将语义转为编码,分词器将文本转为Token,均强调转换不可逆、依赖编码本(词表)。
  • 改进建议:补充电报员无法发送词典外词汇,类比未登录词(OOV)处理。

11.3 应用场景测试

  • 如果遇到用户提问中文时模型答非所问:检查分词是否将问题切碎(如“量子计算”→["量子", "计算"]),导致模型按两个独立概念响应;应尝试添加术语保护(如"量子计算"加引号强制为单Token)。
  • <eos> 和最大长度阈值如何配合:<eos>是模型“自觉停笔”,阈值是系统“强制收卷”;前者优雅,后者保底;生产环境必设双保险。

11.4 逻辑链条测试

  • 分词化 → 产出Token → 词表映射 → 转为ID序列 → 自回归生成 → 基于ID序列概率预测下一ID → 追加 → 循环 → 触发<eos>或阈值 → 输出完成。

知识点总结(金字塔回顾)

顶层结论回顾

大模型并非“理解”语言,而是通过“分词→映射→自回归预测”三步机械流程,将人类文本转化为数字序列,再逐token概率化生成响应——其本质是统计驱动的语言模式续写器。

核心概念回顾

  1. 分词化(Tokenization)

    • 定义:将文本切分为模型可计算的最小离散单元(Token)
    • 核心要点:颗粒度(字/词/子词)、标点必入、语言定制
    • 应用场景:诊断中文效果差、新词泛化失败、Prompt失效
  2. 词表映射(Vocabulary Lookup)

    • 定义:Token查表→唯一整数ID(Token ID)
    • 核心要点:词表是静态快照、ID无序、特殊Token控流程
    • 应用场景:调试ID序列异常、理解<unk>来源、评估词表覆盖度
  3. 自回归生成(Autoregressive Generation)

    • 定义:基于已生成ID序列,逐个预测下一ID并追加
    • 核心要点:单向依赖、概率采样、<eos>与长度双终止
    • 应用场景:解释输出卡顿/重复/截断、优化生成稳定性

关键逻辑回顾

  • 分词化 → 为 词表映射 提供合法Token输入
  • 词表映射 + 词表 → 共同构成 自回归生成 的输入序列
  • 自回归生成 → 最终解决 大模型IO流闭环

学习成果检验

  • ☐ 能用简单语言解释核心概念(费曼测试通过)
  • ☐ 能说清分词→映射→生成的逻辑链条(因果链完整)
  • ☐ 能用tokenizer.encode()诊断真实中文Prompt(实践可操作)
  • ☐ 能向他人清晰讲解:为何“中文提问效果不如英文”(价值可传递)


💡 如何将这份知识化为己有?

这篇结构化的笔记,是我用 AI 工具 谛听 处理视频后一键生成的。

它不仅能 批量提取B站视频文案,更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。

🎯 现在就可以体验: 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频,
不到10分钟,就能得到一份属于你的结构化笔记。

🔗 立即体验: https://diting.cc
⏰ 免费额度: 新用户注册即送30分钟/月


🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取

修改于 2026-02-20 12:01:40
上一页
04 提示工程:从随心所欲到系统化可控的大模型交互科学
下一页
06AI Agent 深度解析与工程实践:从认知原理到个性化定制
Built with