质量判断要回到任务
判断图像、视频和多模态结果时,先问它要完成什么任务,而不是只看第一眼漂不漂亮。
生成内容最容易把人骗住:第一眼很漂亮,放进真实任务就塌。图像里手指错了、海报文字糊了、视频人物变脸、商品颜色不准、引用来源不清,这些都不是“审美小问题”,而是交付问题。
所以判断生成式与多模态结果,不能只问“像不像”“好不好看”。更该问:这个结果要服务什么任务,它在那个任务里有没有稳定完成必要条件。
先分清四类任务
| 任务类型 | 用户真正要什么 | 主要看什么 | 常见翻车 |
|---|---|---|---|
| 灵感探索 | 快速看到方向,不要求直接交付 | 多样性、速度、风格覆盖 | 结果好看但全都像同一套模板 |
| 内容交付 | 能直接用于海报、封面、短视频、商品图 | 清晰度、一致性、可编辑、版权边界 | 字糊、手崩、logo 错、商品细节变形 |
| 信息理解 | 从图片、截图、视频、文档里提取可靠信息 | 准确性、依据、可复核 | 看错图、编造细节、漏掉关键区域 |
| 决策辅助 | 帮用户判断、筛选、审核、预警 | 稳定性、召回率、误报率、责任边界 | 偶尔对一次,但不能稳定复现 |
一个结果在“灵感探索”里合格,不代表它在“内容交付”里合格。这个差别不说清,网站内容就会变成一堆漂亮但没用的形容词。
最危险的评价方式
只用一张截图评价模型。生成式系统最会在单张 demo 里装神,真正的问题通常出现在连续修改、批量生成、边界输入和真实发布流程里。
图像生成:别只看美感
图像生成的基础分不是“好看”,而是这些东西能不能守住:
- 主体一致:同一个人物、商品、品牌元素在多张图里是否保持稳定。
- 局部正确:手、眼睛、文字、logo、边缘、材质是否经得起放大看。
- 指令服从:用户要求的构图、颜色、数量、动作是否真的执行。
- 可编辑性:能不能局部改,不是一改就整张图换掉。
- 来源和授权:训练数据、生成结果、商用授权和风格模仿边界是否清楚。
如果是做活动海报,文字和 logo 错一个字就废。如果是做商品图,颜色和结构偏一点就可能构成误导。好看只是一票,不能一票否决其他硬条件。
视频生成:稳定性比单帧惊艳更重要
视频比图像更难,因为它多了时间维度。你不只要看每一帧,还要看前后是否连起来。
重点检查:
- 人物脸、衣服、身体比例有没有随时间漂移。
- 物体有没有突然消失、穿模、变形。
- 镜头运动和物理关系是否自然。
- 口型、动作、声音是否对得上。
- 同一个提示词多次生成,失败率是否可接受。
很多视频 demo 截一帧都很好看,连起来就露馅。做宣传片、广告分镜、教育视频或产品演示时,稳定性通常比“某一秒很炸”更重要。
多模态理解:要看依据,不只看答案
多模态助手最常见的任务不是“生成漂亮内容”,而是看图、看表、看截图、看视频后回答问题。
这类任务要特别警惕三件事:
- 看错区域:模型回答得很顺,但其实没看关键位置。
- 补全幻觉:图片里没有的信息,被模型按常识编出来。
- 无法复核:用户不知道答案来自图中哪一块,也不知道哪里可能不确定。
更靠谱的输出应该能指向依据:它看到了哪个区域、读到了哪段文字、哪些地方不确定、哪些结论需要人工确认。只给一个自信答案,反而危险。
一张实用评分表
| 维度 | 问题 | 低分表现 | 高分表现 |
|---|---|---|---|
| 任务贴合 | 是否完成用户原任务 | 漂亮但跑题 | 明确满足目标、格式和限制 |
| 语义一致 | 文本、图像、视频是否互相对得上 | 标题说 A,画面像 B | 关键对象、动作、关系一致 |
| 细节可靠 | 局部是否经得起检查 | 文字糊、手崩、表格读错 | 关键细节清楚可复核 |
| 时间稳定 | 视频或多轮编辑是否稳定 | 人物/物体前后漂移 | 连续画面和多轮修改保持一致 |
| 可控性 | 能否按要求调整 | 改一点全局乱掉 | 局部可改、风格可控、版本可追踪 |
| 风险边界 | 是否知道能不能发布 | 来源、版权、隐私不清 | 有授权、出处、人工审核和兜底 |
不同角色怎么判断
普通用户只需要问三句:
- 它有没有准确完成我说的事?
- 有没有关键细节明显不对?
- 我能不能安全地把它发出去或交给别人用?
产品经理要多问三句:
- 失败时用户能不能发现,并且有补救路径?
- 批量生成时质量会不会明显掉下去?
- 这个能力是提高转化,还是只适合做 demo 截图?
内容团队要盯住三件事:
- 品牌一致性:人设、视觉、语气不能每次变。
- 审核流程:版权、肖像、敏感内容不能靠模型自觉。
- 复用成本:生成一次好图不够,要能持续生产同类结果。
技术团队则要把评价落到数据集、指标、人工评审和线上监控。单次 prompt 调好不叫能力稳定,能在真实输入分布里反复达标才算。
常见误区
- 误区一:分辨率越高越好。 高分辨率会放大细节错误;如果结构错了,高清只是高清地错。
- 误区二:提示词越长越专业。 长提示词可能提高控制,也可能制造冲突。关键是约束清楚、可验证。
- 误区三:模型会自己理解品牌。 品牌色、禁用词、logo、人物设定都需要明确规则和素材约束。
- 误区四:多模态回答就等于事实。 看图回答仍可能幻觉,尤其是小字、图表、遮挡、低清视频。
- 误区五:能 demo 就能上线。 上线要看失败率、审核、延迟、成本、版权和用户纠错路径。
一个更好的评测流程
- 写清任务:灵感、交付、理解、决策,四选一或多选。
- 准备 20-50 个真实样例,不只用精心挑选的 prompt。
- 给每个样例标注硬条件:必须出现什么,不能出现什么。
- 记录失败类型:跑题、细节错、不一致、幻觉、版权风险、无法编辑。
- 对比不同模型或不同工作流,不只对比单张最佳图。
- 让真人做最终判断,尤其是要公开发布或影响决策的内容。
接下来读什么
- 回到本章地图: 三个入口。
- 补生成式 AI 总框: Generative AI。
- 补视觉生成主线: Diffusion Models。
- 查看本章术语: 关键术语地图。