三个入口

用“看懂、生成、跨模态协作”三个入口理解图像、视频和多模态 AI。

别从一串术语开始学生成式与多模态。那会把人直接扔进 CLIP、CV、Diffusion、GAN、NeRF、Multimodal 的词堆里,读完也不知道它们各自解决什么。

更好的入口只有三个:模型怎么看懂世界,模型怎么生成内容,模型怎么让不同模态互相配合。 先把这三个问题分清,后面的术语才有位置。

入口一:先问“机器看到了什么”

这一层关心的是视觉理解,也就是计算机视觉(CV)的老问题:图片里有什么?物体在哪?画面里发生了什么?视频前后是否一致?

典型能力包括:

  • 图像分类:这是一只猫、一张发票,还是一个交通标志。
  • 目标检测:车、人、商品、文字框分别在哪里。
  • 图像分割:把天空、道路、人物、商品边缘分出来。
  • 视频理解:动作、镜头变化、场景关系是否能被识别。

CNN 曾经是很多视觉任务的主力结构。后来的视觉 Transformer、多模态模型和生成模型并没有让 CV 消失,而是把“看懂”变成了更大系统的一部分。

这一层不是在画图

CV 的核心问题是理解视觉输入。它可以服务图像生成,但本身不等于文生图。一个模型能识别猫,不代表它就能稳定画出猫。

入口二:再问“内容怎么被生成出来”

生成式 AI 关心的是产出新内容:文字、图片、音频、视频、三维场景都算。放到视觉内容里,最常见的是文生图、图生图、视频生成和局部编辑。

这里最该先理解的是 Diffusion Models。扩散模型可以粗略理解成:先把内容变成噪声,再训练模型一步步把噪声还原成清晰结果。今天很多图像和视频生成系统都和这条路线有关。

GAN 也是重要历史入口。它让“生成器”和“判别器”互相博弈:一个负责造,一个负责挑错。GAN 在生成式视觉史上很重要,但今天很多主流文生图系统更多依赖扩散模型。

模型路线你先记住什么常见误解
Diffusion Models通过逐步去噪生成内容,适合理解现代图像/视频生成。不是“美图滤镜”,还牵涉采样速度、条件控制、版权和一致性。
GAN通过生成器和判别器对抗产生逼真样本。不是所有生成式 AI 的共同底座。
NeRF从多视角图像学习三维场景表示,再渲染新视角。不是普通 2D 文生图,它处理的是场景和视角。

入口三:最后问“文字、图像、语音、视频怎么一起工作”

多模态不是“一个产品里同时有上传图片和聊天框”。真正关键的是:模型能不能把不同类型的信息放到同一个任务里推理。

例如:

  • 你上传一张截图,让模型解释报错在哪里。
  • 你给一张商品图,让模型写电商标题和卖点。
  • 你让模型根据一段文案生成海报,再继续按反馈局部修改。
  • 你给视频片段,让模型总结动作、镜头和不连贯的地方。

CLIP 是理解这件事的好入口。它把文字和图像对齐到相近的语义空间:一张狗的照片应该和“a photo of a dog”更接近,而不是和“a bowl of soup”更接近。它本身不负责画图,但能帮助模型建立文字和图像之间的桥。

跨模态泛化则是在问更难的问题:模型从一种模态学到的表示,能不能迁移到另一种模态或新任务上。比如看图问答、用文字找图、用语音和图片共同判断现场情况,都依赖这种能力。

三个入口怎么串起来

入口核心问题代表词现实产品里常见位置
看懂视觉输入里有什么、在哪里、发生了什么CV、CNN、CLIP图片审核、截图问答、视频理解、商品识别
生成新内容如何被采样、合成、编辑Generative AIDiffusion Models、GAN、NeRF文生图、图生图、视频生成、3D 场景重建
协作不同模态如何对齐、互相解释、共同推理Multimodal、CLIP、Cross-modal generalization多模态助手、设计工具、AI 搜索、智能硬件

如果只看术语,你会觉得每个词都很重要。如果按入口看,优先级就清楚了:普通用户先理解任务,产品经理先理解能力边界,技术读者再往模型结构和训练细节走。

读这个章节时别犯的错

  • 别把“能生成漂亮图片”当成“懂视觉世界”。好看和可控不是一回事。
  • 别把“多模态”当成营销词。关键不是输入类型多,而是能否联合理解和推理。
  • 别把某个模型路线当成全部答案。GAN、扩散模型、NeRF、CLIP 解决的是不同层的问题。
  • 别只看 demo。真实交付还要看一致性、版权、速度、成本、可编辑性和失败兜底。

接下来读什么

参考入口