生成式与多模态

用一个读者地图理解视觉理解、内容生成、多模态协作，以及本章各页该怎么读。

生成式与多模态不是“会画图的 AI”这么窄。它把三个问题放在一起：机器怎样看懂图片和视频，模型怎样生成新内容，以及文字、图像、语音、视频怎样在同一个任务里互相配合。

这一章适合三类读者：普通用户想知道哪些能力能放心用，内容和产品团队想判断 demo 能不能交付，技术读者想把 CLIP、Diffusion、GAN、NeRF、多模态这些词放到正确位置。

先抓住本章回答的三个问题

问题	你要分清什么	优先阅读
机器怎么看懂视觉内容？	识别、定位、分割、视频理解和看图问答都属于“理解输入”，不等于生成图片。	三个入口
模型怎么生成内容？	文生图、图生图、视频生成和 3D 场景重建背后的模型路线不同，不能用一个词解释所有东西。	关键术语地图
结果能不能交付？	好看只是第一关，真实使用还要看一致性、可编辑性、版权、失败率和人工兜底。	质量判断要回到任务

先别被 demo 带跑

一张惊艳截图只能证明模型有可能生成好结果，不能证明它能稳定完成你的任务。多试几组真实输入，看失败率和补救路径，才接近真实能力。

从视觉理解、内容生成、跨模态协作三个入口理解这一章。

用任务、硬条件、失败率和风险边界判断生成结果能不能交付。

把 CV、CNN、CLIP、Diffusion、GAN、NeRF、多模态和跨模态泛化放进一张术语地图。

你的任务	先看什么	读完应该能判断
想让 AI 看截图、读图片、解释视频	三个入口	它是在理解输入，还是在凭常识补全？
想做海报、封面、商品图或短视频	质量判断要回到任务	结果是否满足交付硬条件，而不只是好看？
想理解 CLIP、GAN、NeRF、Diffusion 的差别	关键术语地图	每个词解决的是理解、生成还是跨模态连接问题？
想继续学模型基础	Generative AI 与 Transformer	生成式系统和大模型基础概念怎样接上？