第二步:理解注意力为什么关键

把 Attention 看成上下文相关性计算,而不是把它神秘化成“模型会专注”。

Attention 这个词很容易误导人。它听起来像心理学概念,好像模型真的在“专心看重点”。更准确的说法是:注意力机制让模型在处理当前位置时,计算上下文里哪些位置更相关。

一个直观例子

看这句话:

小王把书放进书包,因为它太重了。

“它”指什么?大概率是书,不是书包。人类会根据语义判断。模型没有人类经验,它要靠训练学到的统计模式和上下文计算来给不同词分配相关性。

注意力机制做的事,就是让模型在生成或理解当前位置时,不只盯着旁边几个词,而能比较更远位置的信息。

为什么这对语言模型重要

语言不是一串孤立词。很多信息隔得很远:

  • 代词要回看前面的名词;
  • 结论要参考前面的证据;
  • 代码变量可能在几十行前定义;
  • 对话里的“刚才那个方案”要指回上文;
  • 合同里的例外条款可能藏在另一节。

没有有效的上下文相关性计算,模型就很难处理这些关系。

Attention 和 Transformer 的关系

Transformer 的核心组件之一就是 self-attention。它让序列里的每个位置都能和其他位置建立联系,并且适合并行计算。这是 Transformer 能够扩展到大规模训练的重要原因之一。

粗略理解:

  1. 每个 token 先变成向量;
  2. 模型计算 token 之间的相关性;
  3. 相关性高的位置会对当前表示产生更大影响;
  4. 多层 Transformer 反复做这个过程,表示会越来越包含上下文信息。

这不是魔法,是大量矩阵计算。

注意力不等于理解

注意力能帮模型利用上下文,但不能直接证明模型“理解”了内容。

比如一个模型可能在训练数据中见过大量合同范式,所以能指出常见风险;但遇到少见条款、跨文档冲突或需要现实业务判断的问题时,它仍然可能漏掉关键点。

判断理解能力要看任务表现:

  • 能否解释理由;
  • 能否处理反例;
  • 能否在换一种问法后保持一致;
  • 能否引用证据;
  • 能否承认信息不足。

你该记住什么

  • Attention 解决的是上下文里“该参考哪里”的问题。
  • Transformer 把注意力机制组织成适合大规模训练的架构。
  • 注意力让模型更擅长处理长距离关系,但不等于人类理解。
  • 看到“模型关注了某个词”,不要立刻脑补成“模型真的懂了”。

下一步读:模型怎么从答错里学习