第二步:理解注意力为什么关键
把 Attention 看成上下文相关性计算,而不是把它神秘化成“模型会专注”。
Attention 这个词很容易误导人。它听起来像心理学概念,好像模型真的在“专心看重点”。更准确的说法是:注意力机制让模型在处理当前位置时,计算上下文里哪些位置更相关。
一个直观例子
看这句话:
小王把书放进书包,因为它太重了。
“它”指什么?大概率是书,不是书包。人类会根据语义判断。模型没有人类经验,它要靠训练学到的统计模式和上下文计算来给不同词分配相关性。
注意力机制做的事,就是让模型在生成或理解当前位置时,不只盯着旁边几个词,而能比较更远位置的信息。
为什么这对语言模型重要
语言不是一串孤立词。很多信息隔得很远:
- 代词要回看前面的名词;
- 结论要参考前面的证据;
- 代码变量可能在几十行前定义;
- 对话里的“刚才那个方案”要指回上文;
- 合同里的例外条款可能藏在另一节。
没有有效的上下文相关性计算,模型就很难处理这些关系。
Attention 和 Transformer 的关系
Transformer 的核心组件之一就是 self-attention。它让序列里的每个位置都能和其他位置建立联系,并且适合并行计算。这是 Transformer 能够扩展到大规模训练的重要原因之一。
粗略理解:
- 每个 token 先变成向量;
- 模型计算 token 之间的相关性;
- 相关性高的位置会对当前表示产生更大影响;
- 多层 Transformer 反复做这个过程,表示会越来越包含上下文信息。
这不是魔法,是大量矩阵计算。
注意力不等于理解
注意力能帮模型利用上下文,但不能直接证明模型“理解”了内容。
比如一个模型可能在训练数据中见过大量合同范式,所以能指出常见风险;但遇到少见条款、跨文档冲突或需要现实业务判断的问题时,它仍然可能漏掉关键点。
判断理解能力要看任务表现:
- 能否解释理由;
- 能否处理反例;
- 能否在换一种问法后保持一致;
- 能否引用证据;
- 能否承认信息不足。
你该记住什么
- Attention 解决的是上下文里“该参考哪里”的问题。
- Transformer 把注意力机制组织成适合大规模训练的架构。
- 注意力让模型更擅长处理长距离关系,但不等于人类理解。
- 看到“模型关注了某个词”,不要立刻脑补成“模型真的懂了”。
下一步读:模型怎么从答错里学习。