【视频】5. 【基础篇】4.大模型的工作流程

🔗 视频链接: https://player.bilibili.com/player.html?bvid=BV1xfBkB4Etb&cid=35011297701
⏱️ 视频时长: 00:11:08

💡 费曼教学（深度版）

大模型工作流程：从输入到输出的完整认知地图

核心洞见（顶层结论）

大模型并非“理解”语言，而是通过“分词→映射→自回归预测”三步机械流程，将人类文本转化为数字序列，再逐token概率化生成响应——其本质是统计驱动的语言模式续写器。

为什么这个洞见重要：打破“AI会思考”的直觉幻觉，建立对大模型能力边界与失效根源的理性认知，是安全、高效、可解释地使用和调试大模型的前提。

学习目标

完成本教程学习后，你将能够：

清晰理解并准确解释分词化（Tokenization） 的原理、目的与多语言适配逻辑
清晰理解并准确解释词表映射（Vocabulary Lookup） 如何将文本符号转化为模型可计算的数值ID
清晰理解并准确解释自回归生成（Autoregressive Generation） 的迭代预测机制与终止条件
运用这些概念分析实际场景中“回答不相关”“中文效果差”“输出卡住”等典型问题
向他人清晰解释：为什么大模型“读不懂中文句子”，却能“写出通顺英文段落”

核心知识点：

分词化（Tokenization）
词表（Vocabulary）与Token ID
自回归生成（Autoregression）
颗粒度（Granularity）与分词策略
特殊Token（如EOS、PAD）

1. 背景与问题（Situation）

视频从宏观IO流切入，聚焦大模型最基础但最常被忽略的底层机制：文本如何进入模型？模型又如何“吐出”文字？
这不是黑箱推理，而是可拆解、可干预、可诊断的确定性流程。

常见困境：

提问中文时答案生硬，换英文反而更流畅 → 不知源于分词策略差异
输出突然中断或重复 → 不知受EOS Token或长度阈值控制
调试Prompt无效 → 不知问题可能出在Token边界（如标点未被分出）

核心挑战：

将抽象的“语言处理”具象为可观察、可测量、可调试的数字操作流
理解“分词不是切词，而是构建语义最小计算单元”的工程本质

2. 概念地图（顶层设计）

概念	一句话定义	解决问题
分词化（Tokenization）	将原始文本按预设规则切分为离散、不可再分的语义/语法最小单元（Token），是文本数字化的第一道闸门	解决“机器无法直接处理字符串”的根本矛盾，为后续数值计算奠基
词表映射（Vocabulary Lookup）	将每个Token查表转换为唯一整数ID（Token ID），使文本成为模型可接收的数值向量序列	解决“模型只认数字、不识文字”的输入兼容性问题，建立文本与向量空间的确定性桥梁
自回归生成（Autoregressive Generation）	模型基于当前所有已生成Token ID，逐个预测下一个最可能Token ID，并循环追加、迭代推进，直至触发终止信号	解决“如何从静态输入生成动态、连贯、有长度的输出文本”这一核心任务

3. 核心概念深度解析（金字塔底层支撑）

3.1 分词化（Tokenization）

生活比喻：想象把一本中文《红楼梦》翻译成摩斯电码——你不会把整本书当一个信号发出去，而是先拆成单字（“贾”“宝”“玉”），再为每个字分配唯一电码（·− ·−− −·）。分词器就是这位“语言电报员”。

一句话定义：分词化是将自然语言文本按语言特性与计算效率权衡，切分为模型可处理的最小离散单元（Token）的过程。

核心要点（MECE原则）：

Token是计算单元，非语义单元：一个Token可以是单词（the）、子词（un+happy）、标点（.）、甚至单个汉字（中），只要它在词表中拥有独立ID即成立。
颗粒度决定能力边界：
- 词级分词（Word-level）：适合空格分隔语言（英语），但无法处理新词（如 ChatGPT）；
- 字级分词（Character-level）：中文常用，保全所有字符，但丢失词义组合（“人工” vs “人”+“工”）；
- 子词分词（Subword-level，如Byte-Pair Encoding）：平衡二者，将高频子串（ing, ed, un-）作为Token，既覆盖新词又压缩词表——现代大模型主流方案。
标点符号是语义一等公民：句号（.）、问号（?）、引号（"）均被独立分词，因其承载语气、句法结构等关键信息，忽略它们等于删除半句含义。

常见误区：

❌ 误区：“分词就是按空格切单词”
✅ 正确理解：分词是有词表约束的、带语言知识的、可配置的编码过程；英语中 “don’t” 可能被分为 ["don", "’t"]，中文 “Transformer” 可能被拆为 ["Trans", "former"]。
⚠️ 为什么容易出错：人类阅读依赖上下文补全，而模型严格依赖Token边界；一个未被词表收录的罕见词，会被强行拆解，导致语义断裂。

实际应用：当你发现模型对专业术语（如 “BERTology”）回答错误时，应首先检查该词是否被合理分词——若被拆为 ["BERT", "ology"]，模型就失去了对新概念的整体认知。

3.2 词表映射（Vocabulary Lookup）

生活比喻：如同给班级每位学生发一张带编号的学生证（ID），老师点名时不喊名字，只念ID号（“请ID 27的同学发言”）。词表就是这本《学生证编号对照册》，映射确保“i”永远对应ID 101，“.”永远对应ID 999。

一句话定义：词表映射是将分词后的每个Token，通过查表（Lookup Table）转换为固定整数ID的操作，形成模型输入所需的数值序列。

核心要点：

词表是静态快照，非无限字典：每个模型训练前固化词表（如LLaMA-3词表含128,256个Token），超出则触发（未知Token）或强制子词拆分。
Token ID是模型唯一的“语言”：模型内部无“apple”概念，只有向量空间中ID 5423所对应的嵌入（Embedding）；所有计算（注意力、前馈）均在此ID序列上进行。
特殊Token是流程控制器：
- （Start of Sequence）：标记输入开始；
- （End of Sequence）：标记输出结束（视频中称EOC）；
- （Padding）：填充短序列至统一长度，计算时屏蔽。

常见误区：

❌ 误区：“词表越大越好，能收更多词”
✅ 正确理解：词表过大 → 嵌入层参数爆炸 → 训练成本剧增；过小 → 未登录词（OOV）增多 → 语义失真。最优词表是语言特性与算力的帕累托前沿。
⚠️ 为什么容易出错：用户输入“张三丰”，若词表无此名，可能被拆为 ["张", "三", "丰"]，模型便按三个独立字生成，失去专有名词的实体一致性。

实际应用：调试中文Prompt效果差时，用tokenizer.encode("你的中文句子")查看实际Token ID序列——若出现大量单字ID（如[123, 456, 789]），说明子词分词失效，需优化输入或切换分词器。

3.3 自回归生成（Autoregressive Generation）

生活比喻：像一位只看自己刚写下的前文、从不回看全文的速记员。老板说“请总结会议要点”，他写下第一个词（“本次”），立刻根据这个词预测下一个最可能词（“会议”），再根据“本次会议”预测下个（“讨论了”）……直到写满一页或看到“完”字才停笔。

一句话定义：自回归生成是模型以“已生成Token序列”为条件，每次仅预测下一个Token ID，并将预测结果追加至序列、作为下次输入，循环直至满足终止条件的确定性解码过程。

核心要点：

严格单向依赖：第 t 步预测仅依赖位置1~t的Token ID，绝不知晓未来内容——这是Transformer解码器的因果掩码（Causal Mask）强制保障的。
概率化而非确定性：模型输出是所有可能Token的概率分布（如：“的”=42%, “了”=28%, “吗”=15%），实际选取常采用：
- 贪婪搜索（Greedy Search）：取最高概率Token（最快，但易陷入局部最优）；
- 束搜索（Beam Search）：保留Top-K候选路径（更优，但耗资源）；
- 采样（Sampling）：按概率随机抽取（更自然，需温度系数调节）。
终止是硬性指令：停止条件有两个：
- Token被采样（模型“主动说结束”）；
- 最大长度阈值达到（如512或8192个Token，系统“强制截断”）。

常见误区：

❌ 误区：“模型一次性想好整段话再输出”
✅ 正确理解：无全局规划，只有局部贪心。输出卡顿、重复、逻辑断裂，常因某步高概率预测了错误Token（如反复生成 “嗯…”），后续无法挽回。
⚠️ 为什么容易出错：用户期待“思考后作答”，但模型只是“边写边猜”。长文本生成质量随长度指数衰减，因误差逐轮累积。

实际应用：当输出出现“... ... ...”无限循环时，大概率是模型在某步持续高概率预测了或 Token；此时应检查Prompt是否引导不足，或降低采样温度（temperature）增强确定性。

4. 概念关系图（金字塔层级结构）

4.1 层级结构

层级	概念	作用	支撑关系
顶层	自回归生成	解决“如何生成连贯文本”这一终极任务	由词表映射提供输入ID序列，由分词化确保输入有效
中层	词表映射	提供模型可计算的数值接口	由分词化产出Token，由词表提供ID查表能力
底层	分词化	构建语言到计算单元的转换桥梁	由语言特性（中/英/法）与词表设计共同决定

4.2 逻辑链条

分词化 → 为词表映射提供合法Token输入（无Token则无ID）
词表映射 + 词表 → 共同构成自回归生成的输入序列（无ID序列则无预测起点）
自回归生成 → 最终解决大模型IO流闭环（输入文本 → 输出文本）

4.3 因果关系

原因	结果	作用机制
中文采用字级分词（颗粒度细）	词表ID序列长、上下文窗口易耗尽	单字Token信息密度低，需更多Token表达同义内容
英文采用子词分词（颗粒度粗）	新词泛化能力强、序列更短	“unhappiness” 拆为 ["un", "happiness"]，复用已有子词嵌入
某步预测概率突升	输出提前终止	模型认为当前上下文已充分回答，触发终止逻辑

5. 知识路径（学习路线图）

起点：理解 分词化是语言数字化的必经闸门
- 关键理解点：Token不是“词”，而是“模型能吃的最小食物单位”；标点必须入Token。
- 常见卡点：误以为“中文分词=结巴分词”，忽视大模型多用字/子词混合策略。
中点：掌握 词表映射构建ID序列的确定性
- 关键理解点：所有NLP任务始于 tokenizer.encode()，终于 tokenizer.decode()；ID序列是模型唯一真相。
- 突破方法：用Hugging Face transformers 库实操：tokenizer("I love NLP!") → 观察输出ID列表与tokenizer.convert_ids_to_tokens()反查。
终点：应用 自回归生成解释一切输出行为
- 关键应用场景：诊断“回答跑题”（初始Token预测偏差）、“输出截断”（长度阈值触达）、“重复啰嗦”（某Token概率持续过高）。
- 效果验证：能手动模拟3步生成（如输入 “The sky is” → 预测 “blue” → 输入 “The sky is blue” → 预测 “.”），并说出每步依据。

6. 概念对比矩阵（易混淆概念辨析）

对比维度	分词化（Tokenization）	词干提取（Stemming）	词形还原（Lemmatization）
定义	将文本切分为模型可计算的离散单元	粗暴截断词尾（running → run）	基于词典返回词元（better → good）
核心特征	产出Token（可为子词、标点、字），服务于数值计算	无词表依赖，规则简单，精度低	依赖词性标注与词典，精度高，速度慢
工作原理	查词表、BPE合并、Unicode归一化	后缀剥离规则（Porter算法）	词性消歧 + 词典查询
适用场景	大模型输入预处理（必需）	传统搜索引擎关键词匹配	NLP任务如情感分析、摘要（非LLM）
优势	保全所有符号、支持多语言、可扩展新词	极快、内存省	语义准确、减少词汇稀疏
局限	语言特性强（中/英策略迥异）、词表固化	过度截断（university → univers）	无法处理新词、依赖高质量词典

核心区别总结：分词化是为计算服务的编码过程，后两者是为语义分析服务的语言学简化；LLM不需要也不进行词干/还原，它直接在Token层面建模。
容易混淆的原因：三者都涉及“切分”，但目标函数完全不同——分词化优化的是模型训练稳定性与泛化性，而非人类可读性。
记忆技巧：Tokenization = Translation（文本→数字）；Stemming = Surgery（粗暴切除）；Lemmatization = Library（查词典）。

7. 类比理解搭建（抽象具象化）

抽象概念	具体事物	类比映射	适用说明
Token	乐高积木单块	每块有唯一形状（代表语义），可拼接成任意结构（句子）	解释为何不能随意增删Token——破坏物理连接（注意力机制）
词表（Vocabulary）	乐高零件目录册	目录记录每种积木的编号（ID）与实物图（Token）	理解为何新积木（新词）需先入库（词表扩展）才能使用
自回归生成	乐高拼搭直播	主播只看已拼部分，每步选最顺手积木（概率最高），拼错无法拆（单向性）	解释输出不可编辑、错误累积的本质

相似点：均强调模块化、可组合、依赖已有部件。
不同点（重要）：乐高有物理约束（凸点凹槽），而Token间关系由注意力权重动态定义——同一Token在不同上下文中权重天差地别。
类比局限性：乐高拼搭是确定性过程，而自回归是概率采样；类比无法体现“温度系数”对创造性的调控。

8. 盲点识别（防坑指南）

潜在盲点（学习者易误解）	正确理解	为什么容易出错
“分词器是通用的，所有模型用同一套”	分词器与模型强绑定：LLaMA用SentencePiece，GPT用Byte-Pair Encoding，中文Qwen用自研分词器；混用会导致ID错乱	视频未提具体实现，易假设存在“标准分词”
“Token ID就是词频排名”	ID无序性：ID 1000未必比ID 100更常用；ID顺序由词表构建算法（如BPE频率）决定，非人工排序	人类习惯“1,2,3…”隐含序关系，而词表ID是哈希式索引
“模型能‘看到’整个输入再输出”	解码器严格因果掩码：生成第5个Token时，模型视野仅限前4个ID，绝不知晓第6个及以后	视频说“基于现有Token预测”，但未强调“现有”即“已生成且已固定”

跳步检测：

默认观众知道但实际需要解释：BPE（Byte-Pair Encoding）算法原理（高频子串合并）；因果掩码（Causal Mask）如何实现单向性（上三角矩阵置负无穷）
行话/术语未解释：（End of Sequence）、temperature（采样随机性系数）、top-k sampling（限制候选集大小）
因果链断裂：未说明“为何子词分词能泛化新词”——因新词可拆为词表内高频子串，其嵌入向量组合即近似新词语义。

9. 核心洞见（价值提炼）

洞见一：大模型没有“理解”，只有“匹配”
- 颠覆认知：我们以为模型在“思考语义”，实则全程在匹配词表ID序列的概率模式。
- 实际价值：解释为何模型会“一本正经胡说八道”——当输入Token序列触发高概率错误路径，它只是忠实地执行了统计规律。
洞见二：中文效能瓶颈在分词，不在模型
- 颠覆认知：不是“中文模型弱”，而是字级分词导致信息密度低、上下文窗口浪费严重；子词分词（如ChatGLM的ZCP）可显著提升。
- 实际价值：优化中文应用，优先尝试启用子词分词器，而非盲目增大模型参数。
洞见三：输出质量由第一步预测决定
- 颠覆认知：“第一句话定生死”——因自回归误差不可逆，首Token选错（如将“解释”误为“列举”），后续全盘偏离。
- 实际价值：Prompt工程核心是精准锚定首Token概率分布，用明确动词（“请定义”“请对比”“请生成JSON”）约束初始方向。

10. 学以致用（实践指南）

行动指南：用Hugging Face Transformers库，可视化一个中文句子的完整IO流。

操作步骤：

第一步：安装并加载分词器（如Qwen/Qwen2-1.5B-Instruct）

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-1.5B-Instruct")

第二步：对句子分词并映射ID

text = "人工智能正在改变世界。"
tokens = tokenizer.tokenize(text)  # 查看Token列表
ids = tokenizer.encode(text)       # 查看ID序列
print("Tokens:", tokens)
print("IDs:", ids)

第三步：反查ID验证映射

decoded = tokenizer.convert_ids_to_tokens(ids)
print("Decoded:", decoded)  # 应与tokens高度一致

第四步：模拟自回归生成（简化版）

# 假设ids=[1,2,3]为输入，模型预测下一个ID为4
next_ids = ids + [4]
output_text = tokenizer.decode(next_ids, skip_special_tokens=True)
print("Output:", output_text)  # 观察新增Token如何改变语义

检验标准：当你能说出"人工智能"被分成了几个Token（如["人工", "智能"]或["人", "工", "智", "能"]），并解释该分法对模型理解“人工智能”作为专有名词的影响时，说明已经掌握。

进阶挑战：尝试将同一中文句子翻译为英文，对比tokenizer.encode()后的ID序列长度——验证“中文颗粒度细导致序列更长”的洞见。

11. 费曼检验清单（检验内化程度）

11.1 一句话解释测试

分词化：把人说的话切成模型能吃的“数字零食”，每片零食（Token）在词表里有唯一编号。
词表映射：查《零食编号手册》，把每片零食换成编号（ID），让模型只跟数字打交道。
自回归生成：模型像打字机，每敲一个键（Token ID）就看已敲内容，猜下一个最该敲什么键，直到敲出“句号”或纸用完。

11.2 类比有效性评估

类比：“分词器是语言电报员” 【贴切】— 电报员将语义转为编码，分词器将文本转为Token，均强调转换不可逆、依赖编码本（词表）。
改进建议：补充电报员无法发送词典外词汇，类比未登录词（OOV）处理。

11.3 应用场景测试

如果遇到用户提问中文时模型答非所问：检查分词是否将问题切碎（如“量子计算”→["量子", "计算"]），导致模型按两个独立概念响应；应尝试添加术语保护（如"量子计算"加引号强制为单Token）。
<eos> 和最大长度阈值如何配合：<eos>是模型“自觉停笔”，阈值是系统“强制收卷”；前者优雅，后者保底；生产环境必设双保险。

11.4 逻辑链条测试

分词化 → 产出Token → 词表映射 → 转为ID序列 → 自回归生成 → 基于ID序列概率预测下一ID → 追加 → 循环 → 触发<eos>或阈值 → 输出完成。

知识点总结（金字塔回顾）

顶层结论回顾

大模型并非“理解”语言，而是通过“分词→映射→自回归预测”三步机械流程，将人类文本转化为数字序列，再逐token概率化生成响应——其本质是统计驱动的语言模式续写器。

核心概念回顾

分词化（Tokenization）
- 定义：将文本切分为模型可计算的最小离散单元（Token）
- 核心要点：颗粒度（字/词/子词）、标点必入、语言定制
- 应用场景：诊断中文效果差、新词泛化失败、Prompt失效
词表映射（Vocabulary Lookup）
- 定义：Token查表→唯一整数ID（Token ID）
- 核心要点：词表是静态快照、ID无序、特殊Token控流程
- 应用场景：调试ID序列异常、理解<unk>来源、评估词表覆盖度
自回归生成（Autoregressive Generation）
- 定义：基于已生成ID序列，逐个预测下一ID并追加
- 核心要点：单向依赖、概率采样、<eos>与长度双终止
- 应用场景：解释输出卡顿/重复/截断、优化生成稳定性

关键逻辑回顾

分词化 → 为 词表映射 提供合法Token输入
词表映射 + 词表 → 共同构成 自回归生成 的输入序列
自回归生成 → 最终解决 大模型IO流闭环

学习成果检验

☐ 能用简单语言解释核心概念（费曼测试通过）
☐ 能说清分词→映射→生成的逻辑链条（因果链完整）
☐ 能用tokenizer.encode()诊断真实中文Prompt（实践可操作）
☐ 能向他人清晰讲解：为何“中文提问效果不如英文”（价值可传递）

💡 如何将这份知识化为己有？

这篇结构化的笔记，是我用 AI 工具谛听处理视频后一键生成的。

它不仅能 批量提取B站视频文案，更能用 费曼学习法 自动梳理出清晰的主干——就像你刚才看到的那样。

🎯 现在就可以体验： 用「30分钟免费额度」处理你收藏夹里第一个"待学习"视频，
不到10分钟，就能得到一份属于你的结构化笔记。

🔗 立即体验： https://diting.cc
⏰ 免费额度： 新用户注册即送30分钟/月

🤖 由 谛听 Diting.cc AI 驱动 | 专注于B站视频知识提取

05大模型工作流程：从输入到输出的完整认知地图

【视频】5. 【基础篇】4.大模型的工作流程

💡 费曼教学（深度版）

大模型工作流程：从输入到输出的完整认知地图

核心洞见（顶层结论）

学习目标

1. 背景与问题（Situation）

2. 概念地图（顶层设计）

3. 核心概念深度解析（金字塔底层支撑）

3.1 分词化（Tokenization）

3.2 词表映射（Vocabulary Lookup）

3.3 自回归生成（Autoregressive Generation）

4. 概念关系图（金字塔层级结构）

4.1 层级结构

4.2 逻辑链条

4.3 因果关系

5. 知识路径（学习路线图）

6. 概念对比矩阵（易混淆概念辨析）

7. 类比理解搭建（抽象具象化）

8. 盲点识别（防坑指南）

9. 核心洞见（价值提炼）

10. 学以致用（实践指南）

11. 费曼检验清单（检验内化程度）

11.1 一句话解释测试

11.2 类比有效性评估

11.3 应用场景测试

11.4 逻辑链条测试

知识点总结（金字塔回顾）

顶层结论回顾

核心概念回顾

关键逻辑回顾

学习成果检验