理解扩散模型如何从噪声一步步生成图像，以及它和 GAN、LLM、图像生成产品之间的关系。

扩散模型（Diffusion Models）

扩散模型，是一类通过学习“从噪声一步步去噪”来生成新内容的生成模型。它在文生图、图像编辑、视频生成等场景里特别重要。

扩散模型从噪声到图像的去噪示意图

[!info] 一句话先记住：扩散模型不是直接“一次画完”，而是从噪声出发，一步步把结果整理出来。

先记住这 3 点

扩散模型的核心思路是逐步去噪。
它是生成式 AI 的重要路线，但不等于所有生成式 AI。
很多文生图系统靠它出图，但它也带来采样速度、版权和控制精度等现实问题。

给普通人的解释

如果让人直接从零画一张图，很难一笔到位。

扩散模型的思路有点像反着来：

先从一团随机噪声开始
再一步步判断“这一块更像什么”
反复去掉无关噪声
最后逐渐显出可读的图像结构

所以你可以把它想成： 模型不是突然凭空画出结果，而是在一堆混乱信息里不断整理，直到整理成像样的内容。

这也是为什么很多扩散模型在生成时会经历多个步骤，看起来像一层层“显影”。

它为什么重要

扩散模型之所以火，是因为它把图像生成的质量和可控性往前推了一大截。

在很多面向普通用户的产品里，它能支持：

根据文字生成图片
根据草图补全画面
局部重绘
图像风格迁移
视频或 3D 内容生成的部分流程

今天很多人第一次接触“AI 绘画”，背后实际接触到的就是扩散模型路线。

它大概是怎么工作的

不展开公式，先记住最朴素的版本：

第一步：前向加噪

把原始图片一步步加噪，最后变成接近纯噪声的状态。

第二步：学习逆过程

训练模型学会：如果现在看到的是某一步的带噪图，它应该怎样往“更清晰的方向”走一步。

第三步：从噪声采样

真正生成时，不需要先给一张完整真图，而是从随机噪声开始，让模型一步步往回走，最后得到图像。

这也是“扩散模型 = 学会反向去噪”的常见直觉来源。

它和 GAN 有什么不同

这俩经常被放在一起说，因为它们都属于生成模型。

GAN

更像“一个负责造，一个负责挑错”
通过对抗训练提升生成质量
在生成式视觉历史上非常重要

扩散模型

更像“从噪声开始，逐步整理出结果”
训练和生成逻辑更偏去噪与采样
在近年的文生图产品中更常见

最粗暴但好记的区别是： GAN 更像对抗，扩散更像逐步显影。

它和 LLM 是什么关系

LLM 更常处理文字、代码和语言推理；扩散模型更常出现在图像、视频和视觉生成。

所以二者不是替代关系，更像生成式 AI 里的两条大路：

LLM：擅长生成语言内容
扩散模型：擅长生成视觉内容

很多多模态系统会把两类能力结合起来。

它最容易被误解的地方

误解 1：扩散模型就是“AI 会画画”

不够准确。扩散模型是一种生成方法，不是单个产品名字。

误解 2：只要提示词写得好，结果就一定可控

不对。提示词、采样参数、训练数据、模型版本都会影响结果，控制并不总是稳定。

误解 3：扩散模型只和好看图片有关

也不对。它背后还牵涉训练成本、采样速度、数据授权、内容安全和可追责性。

为什么普通读者需要知道它

因为只要你在看文生图、AI 海报、AI 修图、AI 视频，基本就绕不开扩散模型。

如果你只知道“AI 会出图”，却不知道扩散模型这层，很容易：

把所有图像生成系统都当成一样
误以为所有效果都来自提示词
忽略训练数据和版权争议
搞不清它和 GAN、CLIP、多模态的关系

理解扩散模型之后，很多问题会更清楚：

为什么出图经常要多步采样
为什么局部重绘和条件控制很关键
为什么图像生成会和数据来源、版权、内容安全绑定在一起

常见误解

扩散模型不是所有生成式 AI 的统称。
扩散模型不是一次性“直接画完”。
扩散模型也不只关心画质，它还关心速度、控制、数据和风险。

参考来源

最后审核时间：2026-04-24

扩散模型（Diffusion Models）

扩散模型（Diffusion Models）

先记住这 3 点

给普通人的解释

它为什么重要

它大概是怎么工作的

第一步：前向加噪

第二步：学习逆过程

第三步：从噪声采样

它和 GAN 有什么不同

GAN

扩散模型

它和 LLM 是什么关系

它最容易被误解的地方

误解 1：扩散模型就是“AI 会画画”

误解 2：只要提示词写得好，结果就一定可控

误解 3：扩散模型只和好看图片有关

为什么普通读者需要知道它

常见误解

延伸阅读

参考来源

On this page