建议按这 4 步读

用一条路线读懂模型结构、注意力、训练、推理和产品成本。

这章不要按术语字母表读。按“一个模型怎么从训练到回答”的顺序读，会少绕很多路。

第 1 步：先看整条链路

先建立一个粗模型：文本进入模型，经过 token、embedding、Transformer、参数计算，最后生成输出。你不用记住每个公式，但要知道这些词在同一条链路上，不是互相独立的名词。

读完要能回答：

这里要分清大类和具体路线：神经网络是大类，Transformer 是今天大模型常用的架构，LLM 是建立在这些技术上的成品模型。

读完要能避免这类混乱：

注意力不是“模型像人一样专注”，而是计算当前位置应该参考哪些上下文位置。它解释了为什么 Transformer 擅长处理文本、代码和长上下文关系。

读完要能回答：

训练会改参数，推理通常不改参数。这个区别会影响你判断一个 AI 系统该怎么修。

读完要能判断：

如果你只想快速建立判断力，读完这 6 页就够了。公式和论文可以以后再补。