最容易混淆的 4 组关系

把模型结构、参数、训练、推理、注意力和理解分开，避免把 AI 术语揉成一团。

很多 AI 文章看起来难，不是因为每个词都难，而是因为几个层级被混着讲。下面这四组关系先分开，后面的内容会顺很多。

1. 神经网络和 Transformer

神经网络是一个大类。它的共同点是用很多可训练的参数，把输入一步步变成输出。

Transformer 是神经网络家族里的一种架构，尤其适合处理文本、代码、图像 patch 这类可以拆成序列的东西。今天的大语言模型大多建立在 Transformer 或其变体之上。

别这么理解：

一个粗略类比：神经网络像“汽车”这个大类，Transformer 像其中一种主流发动机和底盘方案。它很重要，但不是整个交通工具世界。

参数是模型内部的数值。训练结束后，模型的能力主要体现在这些数值如何共同工作。

知识是人类对模型表现的描述：它好像知道巴黎是法国首都，好像知道 Python 怎么写循环，好像知道一篇文章的主题。但模型内部没有一张可以直接打开的“知识清单”。

这点很关键。因为当模型说错时，你不能像改百科词条一样直接找到某一行参数改掉。常见修法通常是：

训练是在改模型。系统拿大量样本让模型预测、出错、计算损失，再通过优化算法更新参数。

推理是在用模型。用户输入问题，模型根据已有参数和当前上下文生成答案。

这两件事的成本、目标和可控性都不一样。

所以，用户问“能不能让它知道公司最新制度”，第一反应不该是重新训练，而应该先看 RAG、知识库、权限和更新流程。

注意力机制计算的是“当前这一步该参考哪些位置的信息”。它是技术结构，不是人类意义上的专注、意识或理解。

理解是我们根据模型表现做出的高层判断。一个模型能总结合同、回答追问、指出冲突条款，我们会说它“理解了”。但这句话描述的是外部表现，不等于模型内部真的像人一样读懂了合同。

更稳的说法是：

把这组关系分清，就不会被“模型有注意力，所以它像人一样理解世界”这种说法带偏。