质量判断要回到任务

判断图像、视频和多模态结果时，先问它要完成什么任务，而不是只看第一眼漂不漂亮。

生成内容最容易把人骗住：第一眼很漂亮，放进真实任务就塌。图像里手指错了、海报文字糊了、视频人物变脸、商品颜色不准、引用来源不清，这些都不是“审美小问题”，而是交付问题。

所以判断生成式与多模态结果，不能只问“像不像”“好不好看”。更该问：这个结果要服务什么任务，它在那个任务里有没有稳定完成必要条件。

先分清四类任务

任务类型	用户真正要什么	主要看什么	常见翻车
灵感探索	快速看到方向，不要求直接交付	多样性、速度、风格覆盖	结果好看但全都像同一套模板
内容交付	能直接用于海报、封面、短视频、商品图	清晰度、一致性、可编辑、版权边界	字糊、手崩、logo 错、商品细节变形
信息理解	从图片、截图、视频、文档里提取可靠信息	准确性、依据、可复核	看错图、编造细节、漏掉关键区域
决策辅助	帮用户判断、筛选、审核、预警	稳定性、召回率、误报率、责任边界	偶尔对一次，但不能稳定复现

一个结果在“灵感探索”里合格，不代表它在“内容交付”里合格。这个差别不说清，网站内容就会变成一堆漂亮但没用的形容词。

最危险的评价方式

只用一张截图评价模型。生成式系统最会在单张 demo 里装神，真正的问题通常出现在连续修改、批量生成、边界输入和真实发布流程里。

图像生成：别只看美感

图像生成的基础分不是“好看”，而是这些东西能不能守住：

主体一致：同一个人物、商品、品牌元素在多张图里是否保持稳定。
局部正确：手、眼睛、文字、logo、边缘、材质是否经得起放大看。
指令服从：用户要求的构图、颜色、数量、动作是否真的执行。
可编辑性：能不能局部改，不是一改就整张图换掉。
来源和授权：训练数据、生成结果、商用授权和风格模仿边界是否清楚。

如果是做活动海报，文字和 logo 错一个字就废。如果是做商品图，颜色和结构偏一点就可能构成误导。好看只是一票，不能一票否决其他硬条件。

视频生成：稳定性比单帧惊艳更重要

视频比图像更难，因为它多了时间维度。你不只要看每一帧，还要看前后是否连起来。

重点检查：

人物脸、衣服、身体比例有没有随时间漂移。
物体有没有突然消失、穿模、变形。
镜头运动和物理关系是否自然。
口型、动作、声音是否对得上。
同一个提示词多次生成，失败率是否可接受。

很多视频 demo 截一帧都很好看，连起来就露馅。做宣传片、广告分镜、教育视频或产品演示时，稳定性通常比“某一秒很炸”更重要。

多模态理解：要看依据，不只看答案

多模态助手最常见的任务不是“生成漂亮内容”，而是看图、看表、看截图、看视频后回答问题。

这类任务要特别警惕三件事：

看错区域：模型回答得很顺，但其实没看关键位置。
补全幻觉：图片里没有的信息，被模型按常识编出来。
无法复核：用户不知道答案来自图中哪一块，也不知道哪里可能不确定。

更靠谱的输出应该能指向依据：它看到了哪个区域、读到了哪段文字、哪些地方不确定、哪些结论需要人工确认。只给一个自信答案，反而危险。

一张实用评分表

维度	问题	低分表现	高分表现
任务贴合	是否完成用户原任务	漂亮但跑题	明确满足目标、格式和限制
语义一致	文本、图像、视频是否互相对得上	标题说 A，画面像 B	关键对象、动作、关系一致
细节可靠	局部是否经得起检查	文字糊、手崩、表格读错	关键细节清楚可复核
时间稳定	视频或多轮编辑是否稳定	人物/物体前后漂移	连续画面和多轮修改保持一致
可控性	能否按要求调整	改一点全局乱掉	局部可改、风格可控、版本可追踪
风险边界	是否知道能不能发布	来源、版权、隐私不清	有授权、出处、人工审核和兜底

不同角色怎么判断

普通用户只需要问三句：

它有没有准确完成我说的事？
有没有关键细节明显不对？
我能不能安全地把它发出去或交给别人用？

产品经理要多问三句：

失败时用户能不能发现，并且有补救路径？
批量生成时质量会不会明显掉下去？
这个能力是提高转化，还是只适合做 demo 截图？

内容团队要盯住三件事：

品牌一致性：人设、视觉、语气不能每次变。
审核流程：版权、肖像、敏感内容不能靠模型自觉。
复用成本：生成一次好图不够，要能持续生产同类结果。

技术团队则要把评价落到数据集、指标、人工评审和线上监控。单次 prompt 调好不叫能力稳定，能在真实输入分布里反复达标才算。

常见误区

误区一：分辨率越高越好。 高分辨率会放大细节错误；如果结构错了，高清只是高清地错。
误区二：提示词越长越专业。 长提示词可能提高控制，也可能制造冲突。关键是约束清楚、可验证。
误区三：模型会自己理解品牌。 品牌色、禁用词、logo、人物设定都需要明确规则和素材约束。
误区四：多模态回答就等于事实。 看图回答仍可能幻觉，尤其是小字、图表、遮挡、低清视频。
误区五：能 demo 就能上线。 上线要看失败率、审核、延迟、成本、版权和用户纠错路径。

一个更好的评测流程

写清任务：灵感、交付、理解、决策，四选一或多选。
准备 20-50 个真实样例，不只用精心挑选的 prompt。
给每个样例标注硬条件：必须出现什么，不能出现什么。
记录失败类型：跑题、细节错、不一致、幻觉、版权风险、无法编辑。
对比不同模型或不同工作流，不只对比单张最佳图。
让真人做最终判断，尤其是要公开发布或影响决策的内容。

接下来读什么

回到本章地图：三个入口。
补生成式 AI 总框： Generative AI。
补视觉生成主线： Diffusion Models。
查看本章术语：关键术语地图。