三个入口

用“看懂、生成、跨模态协作”三个入口理解图像、视频和多模态 AI。

别从一串术语开始学生成式与多模态。那会把人直接扔进 CLIP、CV、Diffusion、GAN、NeRF、Multimodal 的词堆里，读完也不知道它们各自解决什么。

更好的入口只有三个：模型怎么看懂世界，模型怎么生成内容，模型怎么让不同模态互相配合。 先把这三个问题分清，后面的术语才有位置。

入口一：先问“机器看到了什么”

这一层关心的是视觉理解，也就是计算机视觉（CV）的老问题：图片里有什么？物体在哪？画面里发生了什么？视频前后是否一致？

典型能力包括：

CNN 曾经是很多视觉任务的主力结构。后来的视觉 Transformer、多模态模型和生成模型并没有让 CV 消失，而是把“看懂”变成了更大系统的一部分。

这一层不是在画图

CV 的核心问题是理解视觉输入。它可以服务图像生成，但本身不等于文生图。一个模型能识别猫，不代表它就能稳定画出猫。

生成式 AI 关心的是产出新内容：文字、图片、音频、视频、三维场景都算。放到视觉内容里，最常见的是文生图、图生图、视频生成和局部编辑。

这里最该先理解的是 Diffusion Models。扩散模型可以粗略理解成：先把内容变成噪声，再训练模型一步步把噪声还原成清晰结果。今天很多图像和视频生成系统都和这条路线有关。

GAN 也是重要历史入口。它让“生成器”和“判别器”互相博弈：一个负责造，一个负责挑错。GAN 在生成式视觉史上很重要，但今天很多主流文生图系统更多依赖扩散模型。

多模态不是“一个产品里同时有上传图片和聊天框”。真正关键的是：模型能不能把不同类型的信息放到同一个任务里推理。

例如：

CLIP 是理解这件事的好入口。它把文字和图像对齐到相近的语义空间：一张狗的照片应该和“a photo of a dog”更接近，而不是和“a bowl of soup”更接近。它本身不负责画图，但能帮助模型建立文字和图像之间的桥。

跨模态泛化则是在问更难的问题：模型从一种模态学到的表示，能不能迁移到另一种模态或新任务上。比如看图问答、用文字找图、用语音和图片共同判断现场情况，都依赖这种能力。

入口	核心问题	代表词	现实产品里常见位置
看懂	视觉输入里有什么、在哪里、发生了什么	CV、CNN、CLIP	图片审核、截图问答、视频理解、商品识别
生成	新内容如何被采样、合成、编辑	Generative AI、Diffusion Models、GAN、NeRF	文生图、图生图、视频生成、3D 场景重建
协作	不同模态如何对齐、互相解释、共同推理	Multimodal、CLIP、Cross-modal generalization	多模态助手、设计工具、AI 搜索、智能硬件

如果只看术语，你会觉得每个词都很重要。如果按入口看，优先级就清楚了：普通用户先理解任务，产品经理先理解能力边界，技术读者再往模型结构和训练细节走。