第一步:先把模型结构看明白

分清神经网络、Transformer、参数和成品模型的关系,不把所有 AI 词混成一锅。

理解模型机制,先别急着看训练公式。先把“模型结构”这层摆正。

一个大模型不是一堆人工写死的规则,也不是一张巨大知识表。它更像一个由很多层组成的函数:输入文本进去,经过一层层计算,最后输出下一个 token 的概率分布。训练做的事,就是把这套函数里的参数调到比较有用的位置。

先分清 4 个层级

层级它是什么容易误解成什么
神经网络可训练函数的总称某一个具体模型
Transformer一种适合处理序列的神经网络架构所有 AI 的同义词
参数模型内部的数值权重可直接翻阅的知识库
产品模型被训练、对齐、部署后的可用系统单纯的论文架构

今天你用到的聊天模型,通常不是“一个 Transformer”这么简单。它背后还有 tokenizer、训练数据、预训练、指令微调、偏好对齐、系统提示词、工具调用、推理服务和安全策略。

神经网络解决什么

神经网络的核心能力是从数据里学出一种映射关系。

比如:

  • 输入一段文本,预测下一个 token;
  • 输入一张图片,判断里面是什么;
  • 输入用户问题和资料片段,生成回答。

它不是靠工程师逐条写规则,而是靠大量样本调整参数。这个区别很重要。规则系统错了,你可以找规则;神经网络错了,你通常只能从数据、训练目标、提示词、检索和评估上修。

Transformer 为什么重要

Transformer 重要,是因为它用注意力机制高效处理上下文关系。早期模型处理长文本时容易忘前面,或者训练速度受限。Transformer 更适合并行训练,也更擅长在长序列里比较不同位置之间的关系。

这让它非常适合语言任务:

  • 一个词的意思常常取决于前后文;
  • 一段代码里,变量定义可能在很远的位置;
  • 一篇文章的结论可能要回看前面的证据;
  • 对话里,当前问题可能引用上几轮内容。

Transformer 不等于“理解”。它只是给模型提供了一种处理上下文的强结构。理解能力要看训练数据、模型规模、任务设置和实际表现。

参数到底是什么

参数是模型训练后留下的数值。它们决定模型面对输入时怎么计算。

别把参数想成“知识条目”。模型知道某个事实,通常不是因为某个参数专门存了这个事实,而是很多参数共同形成了某种行为倾向。也正因为如此,想精确删除或修改某个知识点很难。

这解释了很多产品选择:

  • 常变知识放 RAG,不塞进参数;
  • 领域格式和语气可以考虑微调;
  • 高风险事实必须要求引用来源;
  • 想降低幻觉,要同时处理检索、提示词、评估和拒答策略。

看模型结构时,抓这条线就够了

  1. 文本先被切成 token。
  2. token 被转成向量表示。
  3. Transformer 层反复处理这些向量,计算上下文关系。
  4. 模型输出下一个 token 的概率。
  5. 解码策略把概率变成最终文本。

这条线不解释全部细节,但足够帮你判断大多数 AI 产品问题:它是结构能力问题,还是资料问题、提示词问题、推理成本问题。

下一步读:注意力为什么关键