三个入口
用“看懂、生成、跨模态协作”三个入口理解图像、视频和多模态 AI。
别从一串术语开始学生成式与多模态。那会把人直接扔进 CLIP、CV、Diffusion、GAN、NeRF、Multimodal 的词堆里,读完也不知道它们各自解决什么。
更好的入口只有三个:模型怎么看懂世界,模型怎么生成内容,模型怎么让不同模态互相配合。 先把这三个问题分清,后面的术语才有位置。
入口一:先问“机器看到了什么”
这一层关心的是视觉理解,也就是计算机视觉(CV)的老问题:图片里有什么?物体在哪?画面里发生了什么?视频前后是否一致?
典型能力包括:
- 图像分类:这是一只猫、一张发票,还是一个交通标志。
- 目标检测:车、人、商品、文字框分别在哪里。
- 图像分割:把天空、道路、人物、商品边缘分出来。
- 视频理解:动作、镜头变化、场景关系是否能被识别。
CNN 曾经是很多视觉任务的主力结构。后来的视觉 Transformer、多模态模型和生成模型并没有让 CV 消失,而是把“看懂”变成了更大系统的一部分。
这一层不是在画图
CV 的核心问题是理解视觉输入。它可以服务图像生成,但本身不等于文生图。一个模型能识别猫,不代表它就能稳定画出猫。
入口二:再问“内容怎么被生成出来”
生成式 AI 关心的是产出新内容:文字、图片、音频、视频、三维场景都算。放到视觉内容里,最常见的是文生图、图生图、视频生成和局部编辑。
这里最该先理解的是 Diffusion Models。扩散模型可以粗略理解成:先把内容变成噪声,再训练模型一步步把噪声还原成清晰结果。今天很多图像和视频生成系统都和这条路线有关。
GAN 也是重要历史入口。它让“生成器”和“判别器”互相博弈:一个负责造,一个负责挑错。GAN 在生成式视觉史上很重要,但今天很多主流文生图系统更多依赖扩散模型。
| 模型路线 | 你先记住什么 | 常见误解 |
|---|---|---|
| Diffusion Models | 通过逐步去噪生成内容,适合理解现代图像/视频生成。 | 不是“美图滤镜”,还牵涉采样速度、条件控制、版权和一致性。 |
| GAN | 通过生成器和判别器对抗产生逼真样本。 | 不是所有生成式 AI 的共同底座。 |
| NeRF | 从多视角图像学习三维场景表示,再渲染新视角。 | 不是普通 2D 文生图,它处理的是场景和视角。 |
入口三:最后问“文字、图像、语音、视频怎么一起工作”
多模态不是“一个产品里同时有上传图片和聊天框”。真正关键的是:模型能不能把不同类型的信息放到同一个任务里推理。
例如:
- 你上传一张截图,让模型解释报错在哪里。
- 你给一张商品图,让模型写电商标题和卖点。
- 你让模型根据一段文案生成海报,再继续按反馈局部修改。
- 你给视频片段,让模型总结动作、镜头和不连贯的地方。
CLIP 是理解这件事的好入口。它把文字和图像对齐到相近的语义空间:一张狗的照片应该和“a photo of a dog”更接近,而不是和“a bowl of soup”更接近。它本身不负责画图,但能帮助模型建立文字和图像之间的桥。
跨模态泛化则是在问更难的问题:模型从一种模态学到的表示,能不能迁移到另一种模态或新任务上。比如看图问答、用文字找图、用语音和图片共同判断现场情况,都依赖这种能力。
三个入口怎么串起来
| 入口 | 核心问题 | 代表词 | 现实产品里常见位置 |
|---|---|---|---|
| 看懂 | 视觉输入里有什么、在哪里、发生了什么 | CV、CNN、CLIP | 图片审核、截图问答、视频理解、商品识别 |
| 生成 | 新内容如何被采样、合成、编辑 | Generative AI、Diffusion Models、GAN、NeRF | 文生图、图生图、视频生成、3D 场景重建 |
| 协作 | 不同模态如何对齐、互相解释、共同推理 | Multimodal、CLIP、Cross-modal generalization | 多模态助手、设计工具、AI 搜索、智能硬件 |
如果只看术语,你会觉得每个词都很重要。如果按入口看,优先级就清楚了:普通用户先理解任务,产品经理先理解能力边界,技术读者再往模型结构和训练细节走。
读这个章节时别犯的错
- 别把“能生成漂亮图片”当成“懂视觉世界”。好看和可控不是一回事。
- 别把“多模态”当成营销词。关键不是输入类型多,而是能否联合理解和推理。
- 别把某个模型路线当成全部答案。GAN、扩散模型、NeRF、CLIP 解决的是不同层的问题。
- 别只看 demo。真实交付还要看一致性、版权、速度、成本、可编辑性和失败兜底。
接下来读什么
- 如果你想判断生成结果能不能用于产品,读 质量判断要回到任务。
- 如果你想先补核心词,读 关键术语地图。
- 如果你想理解生成式 AI 的总框,读 Generative AI。
- 如果你想理解现代视觉生成的主线,读 Diffusion Models。