第二步：理解注意力为什么关键

把 Attention 看成上下文相关性计算，而不是把它神秘化成“模型会专注”。

Attention 这个词很容易误导人。它听起来像心理学概念，好像模型真的在“专心看重点”。更准确的说法是：注意力机制让模型在处理当前位置时，计算上下文里哪些位置更相关。

一个直观例子

看这句话：

小王把书放进书包，因为它太重了。

“它”指什么？大概率是书，不是书包。人类会根据语义判断。模型没有人类经验，它要靠训练学到的统计模式和上下文计算来给不同词分配相关性。

注意力机制做的事，就是让模型在生成或理解当前位置时，不只盯着旁边几个词，而能比较更远位置的信息。

语言不是一串孤立词。很多信息隔得很远：

没有有效的上下文相关性计算，模型就很难处理这些关系。

Transformer 的核心组件之一就是 self-attention。它让序列里的每个位置都能和其他位置建立联系，并且适合并行计算。这是 Transformer 能够扩展到大规模训练的重要原因之一。

粗略理解：

这不是魔法，是大量矩阵计算。

注意力能帮模型利用上下文，但不能直接证明模型“理解”了内容。

比如一个模型可能在训练数据中见过大量合同范式，所以能指出常见风险；但遇到少见条款、跨文档冲突或需要现实业务判断的问题时，它仍然可能漏掉关键点。

判断理解能力要看任务表现：