第一步:先把模型结构看明白
分清神经网络、Transformer、参数和成品模型的关系,不把所有 AI 词混成一锅。
理解模型机制,先别急着看训练公式。先把“模型结构”这层摆正。
一个大模型不是一堆人工写死的规则,也不是一张巨大知识表。它更像一个由很多层组成的函数:输入文本进去,经过一层层计算,最后输出下一个 token 的概率分布。训练做的事,就是把这套函数里的参数调到比较有用的位置。
先分清 4 个层级
| 层级 | 它是什么 | 容易误解成什么 |
|---|---|---|
| 神经网络 | 可训练函数的总称 | 某一个具体模型 |
| Transformer | 一种适合处理序列的神经网络架构 | 所有 AI 的同义词 |
| 参数 | 模型内部的数值权重 | 可直接翻阅的知识库 |
| 产品模型 | 被训练、对齐、部署后的可用系统 | 单纯的论文架构 |
今天你用到的聊天模型,通常不是“一个 Transformer”这么简单。它背后还有 tokenizer、训练数据、预训练、指令微调、偏好对齐、系统提示词、工具调用、推理服务和安全策略。
神经网络解决什么
神经网络的核心能力是从数据里学出一种映射关系。
比如:
- 输入一段文本,预测下一个 token;
- 输入一张图片,判断里面是什么;
- 输入用户问题和资料片段,生成回答。
它不是靠工程师逐条写规则,而是靠大量样本调整参数。这个区别很重要。规则系统错了,你可以找规则;神经网络错了,你通常只能从数据、训练目标、提示词、检索和评估上修。
Transformer 为什么重要
Transformer 重要,是因为它用注意力机制高效处理上下文关系。早期模型处理长文本时容易忘前面,或者训练速度受限。Transformer 更适合并行训练,也更擅长在长序列里比较不同位置之间的关系。
这让它非常适合语言任务:
- 一个词的意思常常取决于前后文;
- 一段代码里,变量定义可能在很远的位置;
- 一篇文章的结论可能要回看前面的证据;
- 对话里,当前问题可能引用上几轮内容。
Transformer 不等于“理解”。它只是给模型提供了一种处理上下文的强结构。理解能力要看训练数据、模型规模、任务设置和实际表现。
参数到底是什么
参数是模型训练后留下的数值。它们决定模型面对输入时怎么计算。
别把参数想成“知识条目”。模型知道某个事实,通常不是因为某个参数专门存了这个事实,而是很多参数共同形成了某种行为倾向。也正因为如此,想精确删除或修改某个知识点很难。
这解释了很多产品选择:
- 常变知识放 RAG,不塞进参数;
- 领域格式和语气可以考虑微调;
- 高风险事实必须要求引用来源;
- 想降低幻觉,要同时处理检索、提示词、评估和拒答策略。
看模型结构时,抓这条线就够了
- 文本先被切成 token。
- token 被转成向量表示。
- Transformer 层反复处理这些向量,计算上下文关系。
- 模型输出下一个 token 的概率。
- 解码策略把概率变成最终文本。
这条线不解释全部细节,但足够帮你判断大多数 AI 产品问题:它是结构能力问题,还是资料问题、提示词问题、推理成本问题。
下一步读:注意力为什么关键。