扩散模型(Diffusion Models)
理解扩散模型如何从噪声一步步生成图像,以及它和 GAN、LLM、图像生成产品之间的关系。
扩散模型(Diffusion Models)
扩散模型,是一类通过学习“从噪声一步步去噪”来生成新内容的生成模型。它在文生图、图像编辑、视频生成等场景里特别重要。
[!info] 一句话先记住:扩散模型不是直接“一次画完”,而是从噪声出发,一步步把结果整理出来。
先记住这 3 点
- 扩散模型的核心思路是逐步去噪。
- 它是生成式 AI 的重要路线,但不等于所有生成式 AI。
- 很多文生图系统靠它出图,但它也带来采样速度、版权和控制精度等现实问题。
给普通人的解释
如果让人直接从零画一张图,很难一笔到位。
扩散模型的思路有点像反着来:
- 先从一团随机噪声开始
- 再一步步判断“这一块更像什么”
- 反复去掉无关噪声
- 最后逐渐显出可读的图像结构
所以你可以把它想成: 模型不是突然凭空画出结果,而是在一堆混乱信息里不断整理,直到整理成像样的内容。
这也是为什么很多扩散模型在生成时会经历多个步骤,看起来像一层层“显影”。
它为什么重要
扩散模型之所以火,是因为它把图像生成的质量和可控性往前推了一大截。
在很多面向普通用户的产品里,它能支持:
- 根据文字生成图片
- 根据草图补全画面
- 局部重绘
- 图像风格迁移
- 视频或 3D 内容生成的部分流程
今天很多人第一次接触“AI 绘画”,背后实际接触到的就是扩散模型路线。
它大概是怎么工作的
不展开公式,先记住最朴素的版本:
第一步:前向加噪
把原始图片一步步加噪,最后变成接近纯噪声的状态。
第二步:学习逆过程
训练模型学会:如果现在看到的是某一步的带噪图,它应该怎样往“更清晰的方向”走一步。
第三步:从噪声采样
真正生成时,不需要先给一张完整真图,而是从随机噪声开始,让模型一步步往回走,最后得到图像。
这也是“扩散模型 = 学会反向去噪”的常见直觉来源。
它和 GAN 有什么不同
这俩经常被放在一起说,因为它们都属于生成模型。
GAN
- 更像“一个负责造,一个负责挑错”
- 通过对抗训练提升生成质量
- 在生成式视觉历史上非常重要
扩散模型
- 更像“从噪声开始,逐步整理出结果”
- 训练和生成逻辑更偏去噪与采样
- 在近年的文生图产品中更常见
最粗暴但好记的区别是: GAN 更像对抗,扩散更像逐步显影。
它和 LLM 是什么关系
LLM 更常处理文字、代码和语言推理;扩散模型更常出现在图像、视频和视觉生成。
所以二者不是替代关系,更像生成式 AI 里的两条大路:
- LLM:擅长生成语言内容
- 扩散模型:擅长生成视觉内容
很多多模态系统会把两类能力结合起来。
它最容易被误解的地方
误解 1:扩散模型就是“AI 会画画”
不够准确。扩散模型是一种生成方法,不是单个产品名字。
误解 2:只要提示词写得好,结果就一定可控
不对。提示词、采样参数、训练数据、模型版本都会影响结果,控制并不总是稳定。
误解 3:扩散模型只和好看图片有关
也不对。它背后还牵涉训练成本、采样速度、数据授权、内容安全和可追责性。
为什么普通读者需要知道它
因为只要你在看文生图、AI 海报、AI 修图、AI 视频,基本就绕不开扩散模型。
如果你只知道“AI 会出图”,却不知道扩散模型这层,很容易:
- 把所有图像生成系统都当成一样
- 误以为所有效果都来自提示词
- 忽略训练数据和版权争议
- 搞不清它和 GAN、CLIP、多模态的关系
理解扩散模型之后,很多问题会更清楚:
- 为什么出图经常要多步采样
- 为什么局部重绘和条件控制很关键
- 为什么图像生成会和数据来源、版权、内容安全绑定在一起
常见误解
- 扩散模型不是所有生成式 AI 的统称。
- 扩散模型不是一次性“直接画完”。
- 扩散模型也不只关心画质,它还关心速度、控制、数据和风险。
延伸阅读
参考来源
- Ho et al., Denoising Diffusion Probabilistic Models
- Nichol & Dhariwal, Improved Denoising Diffusion Probabilistic Models
最后审核时间:2026-04-24