扩散模型(Diffusion Models)

理解扩散模型如何从噪声一步步生成图像,以及它和 GAN、LLM、图像生成产品之间的关系。

扩散模型(Diffusion Models)

扩散模型,是一类通过学习“从噪声一步步去噪”来生成新内容的生成模型。它在文生图、图像编辑、视频生成等场景里特别重要。

扩散模型从噪声到图像的去噪示意图

[!info] 一句话先记住:扩散模型不是直接“一次画完”,而是从噪声出发,一步步把结果整理出来。

先记住这 3 点

  • 扩散模型的核心思路是逐步去噪。
  • 它是生成式 AI 的重要路线,但不等于所有生成式 AI。
  • 很多文生图系统靠它出图,但它也带来采样速度、版权和控制精度等现实问题。

给普通人的解释

如果让人直接从零画一张图,很难一笔到位。

扩散模型的思路有点像反着来:

  • 先从一团随机噪声开始
  • 再一步步判断“这一块更像什么”
  • 反复去掉无关噪声
  • 最后逐渐显出可读的图像结构

所以你可以把它想成: 模型不是突然凭空画出结果,而是在一堆混乱信息里不断整理,直到整理成像样的内容。

这也是为什么很多扩散模型在生成时会经历多个步骤,看起来像一层层“显影”。

它为什么重要

扩散模型之所以火,是因为它把图像生成的质量和可控性往前推了一大截。

在很多面向普通用户的产品里,它能支持:

  • 根据文字生成图片
  • 根据草图补全画面
  • 局部重绘
  • 图像风格迁移
  • 视频或 3D 内容生成的部分流程

今天很多人第一次接触“AI 绘画”,背后实际接触到的就是扩散模型路线。

它大概是怎么工作的

不展开公式,先记住最朴素的版本:

第一步:前向加噪

把原始图片一步步加噪,最后变成接近纯噪声的状态。

第二步:学习逆过程

训练模型学会:如果现在看到的是某一步的带噪图,它应该怎样往“更清晰的方向”走一步。

第三步:从噪声采样

真正生成时,不需要先给一张完整真图,而是从随机噪声开始,让模型一步步往回走,最后得到图像。

这也是“扩散模型 = 学会反向去噪”的常见直觉来源。

它和 GAN 有什么不同

这俩经常被放在一起说,因为它们都属于生成模型。

GAN

  • 更像“一个负责造,一个负责挑错”
  • 通过对抗训练提升生成质量
  • 在生成式视觉历史上非常重要

扩散模型

  • 更像“从噪声开始,逐步整理出结果”
  • 训练和生成逻辑更偏去噪与采样
  • 在近年的文生图产品中更常见

最粗暴但好记的区别是: GAN 更像对抗,扩散更像逐步显影。

它和 LLM 是什么关系

LLM 更常处理文字、代码和语言推理;扩散模型更常出现在图像、视频和视觉生成。

所以二者不是替代关系,更像生成式 AI 里的两条大路:

  • LLM:擅长生成语言内容
  • 扩散模型:擅长生成视觉内容

很多多模态系统会把两类能力结合起来。

它最容易被误解的地方

误解 1:扩散模型就是“AI 会画画”

不够准确。扩散模型是一种生成方法,不是单个产品名字。

误解 2:只要提示词写得好,结果就一定可控

不对。提示词、采样参数、训练数据、模型版本都会影响结果,控制并不总是稳定。

误解 3:扩散模型只和好看图片有关

也不对。它背后还牵涉训练成本、采样速度、数据授权、内容安全和可追责性。

为什么普通读者需要知道它

因为只要你在看文生图、AI 海报、AI 修图、AI 视频,基本就绕不开扩散模型。

如果你只知道“AI 会出图”,却不知道扩散模型这层,很容易:

  • 把所有图像生成系统都当成一样
  • 误以为所有效果都来自提示词
  • 忽略训练数据和版权争议
  • 搞不清它和 GAN、CLIP、多模态的关系

理解扩散模型之后,很多问题会更清楚:

  • 为什么出图经常要多步采样
  • 为什么局部重绘和条件控制很关键
  • 为什么图像生成会和数据来源、版权、内容安全绑定在一起

常见误解

  • 扩散模型不是所有生成式 AI 的统称。
  • 扩散模型不是一次性“直接画完”。
  • 扩散模型也不只关心画质,它还关心速度、控制、数据和风险。

延伸阅读

参考来源

最后审核时间:2026-04-24