最容易混淆的 4 组关系

把模型结构、参数、训练、推理、注意力和理解分开,避免把 AI 术语揉成一团。

很多 AI 文章看起来难,不是因为每个词都难,而是因为几个层级被混着讲。下面这四组关系先分开,后面的内容会顺很多。

1. 神经网络和 Transformer

神经网络是一个大类。它的共同点是用很多可训练的参数,把输入一步步变成输出。

Transformer 是神经网络家族里的一种架构,尤其适合处理文本、代码、图像 patch 这类可以拆成序列的东西。今天的大语言模型大多建立在 Transformer 或其变体之上。

别这么理解:

  • 错:Transformer 等于所有神经网络。
  • 对:Transformer 是现代大模型最重要的一条神经网络路线。

一个粗略类比:神经网络像“汽车”这个大类,Transformer 像其中一种主流发动机和底盘方案。它很重要,但不是整个交通工具世界。

2. 参数和知识

参数是模型内部的数值。训练结束后,模型的能力主要体现在这些数值如何共同工作。

知识是人类对模型表现的描述:它好像知道巴黎是法国首都,好像知道 Python 怎么写循环,好像知道一篇文章的主题。但模型内部没有一张可以直接打开的“知识清单”。

这点很关键。因为当模型说错时,你不能像改百科词条一样直接找到某一行参数改掉。常见修法通常是:

  • 用 RAG 给它外接可检索资料;
  • 用微调或偏好优化改变一类行为;
  • 用提示词和工具链限制输出;
  • 换一个更合适的模型。

3. 训练和推理

训练是在改模型。系统拿大量样本让模型预测、出错、计算损失,再通过优化算法更新参数。

推理是在用模型。用户输入问题,模型根据已有参数和当前上下文生成答案。

这两件事的成本、目标和可控性都不一样。

维度训练推理
发生时间模型上线前或专门训练阶段每次用户调用时
是否改参数通常不会
主要成本数据、算力、训练时间token、延迟、并发、模型调用费
常见问题数据质量、目标函数、过拟合、对齐上下文不足、检索失败、提示词不清、工具没接好

所以,用户问“能不能让它知道公司最新制度”,第一反应不该是重新训练,而应该先看 RAG、知识库、权限和更新流程。

4. 注意力和理解

注意力机制计算的是“当前这一步该参考哪些位置的信息”。它是技术结构,不是人类意义上的专注、意识或理解。

理解是我们根据模型表现做出的高层判断。一个模型能总结合同、回答追问、指出冲突条款,我们会说它“理解了”。但这句话描述的是外部表现,不等于模型内部真的像人一样读懂了合同。

更稳的说法是:

  • Attention 帮模型建立上下文里的相关性;
  • Transformer 用这种机制高效处理长序列;
  • 模型是否“理解”,要看它在多种问题、反例、追问和真实任务里的表现。

把这组关系分清,就不会被“模型有注意力,所以它像人一样理解世界”这种说法带偏。

一句话地图

  • 神经网络:模型结构的大类。
  • Transformer:今天很多大模型采用的关键架构。
  • 参数:训练后留下的数值结构。
  • 知识:我们对模型表现的外部描述。
  • 训练:改参数。
  • 推理:用参数生成答案。
  • 注意力:计算上下文相关性。
  • 理解:对模型能力的高层判断,需要用任务表现验证。