用一张生成式与多模态术语地图分清 CV、CNN、CLIP、扩散模型、GAN、NeRF、多模态和跨模态泛化各自解决什么问题。

关键术语地图：生成式与多模态

这一页不是把术语堆给你背。生成式与多模态最容易乱，是因为同一个产品里会同时出现“看图”“画图”“改图”“读视频”“根据图片回答问题”。先把词按任务放好，后面读三个入口和质量判断要回到任务才不会迷路。

最简单的分法：CV 负责看懂，生成模型负责产出，多模态负责把文字、图像、语音、视频放到同一个任务里协作。

八个核心词怎么放

术语	先记住的意思	主要回答的问题	别误会成
CV（Computer Vision）	计算机视觉，让机器识别和理解图片、视频里的内容。	画面里有什么、在哪里、发生了什么？	不等于文生图；它更偏“看懂”。
CNN（卷积神经网络）	曾经非常关键的视觉模型结构，擅长从局部图像模式里提取特征。	模型如何从边缘、纹理、形状里逐步理解图像？	不是所有现代视觉系统的唯一底座。
CLIP	把文字和图像对齐到相近语义空间的模型路线。	“一张狗图”和“a photo of a dog”为什么能对应起来？	它本身不是主要用来画图的模型。
Diffusion Models	从噪声开始逐步去噪生成内容。	图像、视频为什么能一步步“显影”出来？	不是简单滤镜，也不保证版权、文字和细节都正确。
GAN	让生成器和判别器互相博弈的生成模型路线。	模型怎样通过“造”和“挑错”提升逼真度？	不是今天所有生成式 AI 的通用解释。
NeRF	从多视角图像学习三维场景表示，再渲染新视角。	机器如何重建一个可换视角观察的 3D 场景？	不等于普通 2D 文生图。
Multimodal（多模态）	同一系统能处理或连接文字、图像、语音、视频等不同信息类型。	模型能不能把不同输入放进同一个任务里理解？	不等于界面上多了上传图片按钮。
Cross-modal generalization（跨模态泛化）	从一种模态学到的表示或关系，能迁移到另一种模态或新任务。	看图学到的东西，能不能帮助问答、检索、生成或决策？	不是“什么模态都天然会”。

读的时候按这三层走

1. 先看“理解层”

CV、CNN、CLIP 主要帮你理解机器怎样处理视觉输入。普通读者不用先钻数学，先问三个问题就够：它能识别什么？它能定位什么？它能不能解释依据？

如果任务是图片审核、商品识别、截图问答、视频总结，重点不是画得漂不漂亮，而是有没有看准关键区域、有没有漏掉小字和遮挡、答案能不能复核。

2. 再看“生成层”

Generative AI、Diffusion Models、GAN 和 NeRF 都和“产出新内容”有关，但产出的对象不同：有的偏 2D 图片，有的偏视频，有的偏 3D 场景。

判断这层能力时，别只看最佳 demo。更现实的检查是：同一个人物能不能保持一致，品牌文字会不会糊，局部修改会不会牵连整张图，生成结果有没有授权和审核边界。

3. 最后看“协作层”

Multimodal 和 cross-modal generalization 关心的是不同信息类型如何互相帮忙。比如上传一张故障截图让模型定位错误、用一张商品图生成标题、用视频片段总结动作，再让文字指令继续修改画面。

这层最容易被营销词污染。真正该问的是：模型是否能联合理解信息、说清不确定性、给出可复核依据，而不是只会把“多模态”写进产品介绍。

一张选读路径

想快速建立地图：读三个入口。
想知道结果能不能交付：读质量判断要回到任务。
想补生成式 AI 总框：读 Generative AI。
想理解现代文生图主线：读 Diffusion Models。
想继续看本站卡片：下面的分类卡会列出已发布的生成式与多模态相关术语。

生成式与多模态共 8 个词

把图像、视频、视觉理解和跨模态能力放到生成式 AI 里理解。

CLIP

对比语言图像预训练技术

把文字和图像对齐到同一语义空间的视觉语言模型方法。

MultimodalCVEmbeddingDiffusion Models

CNN

卷积神经网络技术

擅长提取局部图像特征、长期用于视觉任务的一类神经网络结构。

CVNeural NetworkDeep LearningTransformer

CV

计算机视觉技术

让机器识别、理解、生成和处理图像或视频的 AI 方向。

CNNCLIPNeRFMultimodal

Cross-modal generalization

跨模态泛化技术

模型把一种模态学到的能力迁移到另一种模态上的能力。

MultimodalCLIPEmbedding

Diffusion Models

扩散模型技术

通过学习逐步去噪过程来生成图像等内容的一类生成模型。

核心词Generative AI / Gen AIGANCLIPMultimodal

阅读全文

GAN

生成对抗网络技术

让生成器和判别器相互博弈来生成新数据的一类生成模型方法。

Diffusion ModelsGenerative AI / Gen AINeural NetworkAIGC

Multimodal

多模态技术

能联合处理文本、图像、音频、视频等多种数据类型的 AI 能力。

CLIPCVGenerative AI / Gen AICross-modal generalization

NeRF

神经辐射场技术

用神经网络从二维图像学习并渲染三维场景表示的方法。

CVMultimodalDiffusion ModelsGenerative AI / Gen AI

关键术语地图