最容易混淆的 4 组关系
把模型结构、参数、训练、推理、注意力和理解分开,避免把 AI 术语揉成一团。
很多 AI 文章看起来难,不是因为每个词都难,而是因为几个层级被混着讲。下面这四组关系先分开,后面的内容会顺很多。
1. 神经网络和 Transformer
神经网络是一个大类。它的共同点是用很多可训练的参数,把输入一步步变成输出。
Transformer 是神经网络家族里的一种架构,尤其适合处理文本、代码、图像 patch 这类可以拆成序列的东西。今天的大语言模型大多建立在 Transformer 或其变体之上。
别这么理解:
- 错:Transformer 等于所有神经网络。
- 对:Transformer 是现代大模型最重要的一条神经网络路线。
一个粗略类比:神经网络像“汽车”这个大类,Transformer 像其中一种主流发动机和底盘方案。它很重要,但不是整个交通工具世界。
2. 参数和知识
参数是模型内部的数值。训练结束后,模型的能力主要体现在这些数值如何共同工作。
知识是人类对模型表现的描述:它好像知道巴黎是法国首都,好像知道 Python 怎么写循环,好像知道一篇文章的主题。但模型内部没有一张可以直接打开的“知识清单”。
这点很关键。因为当模型说错时,你不能像改百科词条一样直接找到某一行参数改掉。常见修法通常是:
- 用 RAG 给它外接可检索资料;
- 用微调或偏好优化改变一类行为;
- 用提示词和工具链限制输出;
- 换一个更合适的模型。
3. 训练和推理
训练是在改模型。系统拿大量样本让模型预测、出错、计算损失,再通过优化算法更新参数。
推理是在用模型。用户输入问题,模型根据已有参数和当前上下文生成答案。
这两件事的成本、目标和可控性都不一样。
| 维度 | 训练 | 推理 |
|---|---|---|
| 发生时间 | 模型上线前或专门训练阶段 | 每次用户调用时 |
| 是否改参数 | 会 | 通常不会 |
| 主要成本 | 数据、算力、训练时间 | token、延迟、并发、模型调用费 |
| 常见问题 | 数据质量、目标函数、过拟合、对齐 | 上下文不足、检索失败、提示词不清、工具没接好 |
所以,用户问“能不能让它知道公司最新制度”,第一反应不该是重新训练,而应该先看 RAG、知识库、权限和更新流程。
4. 注意力和理解
注意力机制计算的是“当前这一步该参考哪些位置的信息”。它是技术结构,不是人类意义上的专注、意识或理解。
理解是我们根据模型表现做出的高层判断。一个模型能总结合同、回答追问、指出冲突条款,我们会说它“理解了”。但这句话描述的是外部表现,不等于模型内部真的像人一样读懂了合同。
更稳的说法是:
- Attention 帮模型建立上下文里的相关性;
- Transformer 用这种机制高效处理长序列;
- 模型是否“理解”,要看它在多种问题、反例、追问和真实任务里的表现。
把这组关系分清,就不会被“模型有注意力,所以它像人一样理解世界”这种说法带偏。
一句话地图
- 神经网络:模型结构的大类。
- Transformer:今天很多大模型采用的关键架构。
- 参数:训练后留下的数值结构。
- 知识:我们对模型表现的外部描述。
- 训练:改参数。
- 推理:用参数生成答案。
- 注意力:计算上下文相关性。
- 理解:对模型能力的高层判断,需要用任务表现验证。