关键术语地图

用一张生成式与多模态术语地图分清 CV、CNN、CLIP、扩散模型、GAN、NeRF、多模态和跨模态泛化各自解决什么问题。

关键术语地图:生成式与多模态

这一页不是把术语堆给你背。生成式与多模态最容易乱,是因为同一个产品里会同时出现“看图”“画图”“改图”“读视频”“根据图片回答问题”。先把词按任务放好,后面读 三个入口质量判断要回到任务 才不会迷路。

最简单的分法:CV 负责看懂,生成模型负责产出,多模态负责把文字、图像、语音、视频放到同一个任务里协作。

八个核心词怎么放

术语先记住的意思主要回答的问题别误会成
CV(Computer Vision)计算机视觉,让机器识别和理解图片、视频里的内容。画面里有什么、在哪里、发生了什么?不等于文生图;它更偏“看懂”。
CNN(卷积神经网络)曾经非常关键的视觉模型结构,擅长从局部图像模式里提取特征。模型如何从边缘、纹理、形状里逐步理解图像?不是所有现代视觉系统的唯一底座。
CLIP把文字和图像对齐到相近语义空间的模型路线。“一张狗图”和“a photo of a dog”为什么能对应起来?它本身不是主要用来画图的模型。
Diffusion Models从噪声开始逐步去噪生成内容。图像、视频为什么能一步步“显影”出来?不是简单滤镜,也不保证版权、文字和细节都正确。
GAN让生成器和判别器互相博弈的生成模型路线。模型怎样通过“造”和“挑错”提升逼真度?不是今天所有生成式 AI 的通用解释。
NeRF从多视角图像学习三维场景表示,再渲染新视角。机器如何重建一个可换视角观察的 3D 场景?不等于普通 2D 文生图。
Multimodal(多模态)同一系统能处理或连接文字、图像、语音、视频等不同信息类型。模型能不能把不同输入放进同一个任务里理解?不等于界面上多了上传图片按钮。
Cross-modal generalization(跨模态泛化)从一种模态学到的表示或关系,能迁移到另一种模态或新任务。看图学到的东西,能不能帮助问答、检索、生成或决策?不是“什么模态都天然会”。

读的时候按这三层走

1. 先看“理解层”

CV、CNN、CLIP 主要帮你理解机器怎样处理视觉输入。普通读者不用先钻数学,先问三个问题就够:它能识别什么?它能定位什么?它能不能解释依据?

如果任务是图片审核、商品识别、截图问答、视频总结,重点不是画得漂不漂亮,而是有没有看准关键区域、有没有漏掉小字和遮挡、答案能不能复核。

2. 再看“生成层”

Generative AIDiffusion Models、GAN 和 NeRF 都和“产出新内容”有关,但产出的对象不同:有的偏 2D 图片,有的偏视频,有的偏 3D 场景。

判断这层能力时,别只看最佳 demo。更现实的检查是:同一个人物能不能保持一致,品牌文字会不会糊,局部修改会不会牵连整张图,生成结果有没有授权和审核边界。

3. 最后看“协作层”

Multimodal 和 cross-modal generalization 关心的是不同信息类型如何互相帮忙。比如上传一张故障截图让模型定位错误、用一张商品图生成标题、用视频片段总结动作,再让文字指令继续修改画面。

这层最容易被营销词污染。真正该问的是:模型是否能联合理解信息、说清不确定性、给出可复核依据,而不是只会把“多模态”写进产品介绍。

一张选读路径

生成式与多模态8 个词

把图像、视频、视觉理解和跨模态能力放到生成式 AI 里理解。

CLIP

对比语言图像预训练技术

把文字和图像对齐到同一语义空间的视觉语言模型方法。

MultimodalCVEmbeddingDiffusion Models

CNN

卷积神经网络技术

擅长提取局部图像特征、长期用于视觉任务的一类神经网络结构。

CVNeural NetworkDeep LearningTransformer

CV

计算机视觉技术

让机器识别、理解、生成和处理图像或视频的 AI 方向。

CNNCLIPNeRFMultimodal

Cross-modal generalization

跨模态泛化技术

模型把一种模态学到的能力迁移到另一种模态上的能力。

MultimodalCLIPEmbedding

Diffusion Models

扩散模型技术

通过学习逐步去噪过程来生成图像等内容的一类生成模型。

核心词Generative AI / Gen AIGANCLIPMultimodal
阅读全文

GAN

生成对抗网络技术

让生成器和判别器相互博弈来生成新数据的一类生成模型方法。

Diffusion ModelsGenerative AI / Gen AINeural NetworkAIGC

Multimodal

多模态技术

能联合处理文本、图像、音频、视频等多种数据类型的 AI 能力。

CLIPCVGenerative AI / Gen AICross-modal generalization

NeRF

神经辐射场技术

用神经网络从二维图像学习并渲染三维场景表示的方法。

CVMultimodalDiffusion ModelsGenerative AI / Gen AI

参考入口