四类问题判断表
用问题类型判断该改提示词、补检索、接工具,还是做微调和偏好优化。
做 LLM 应用,最容易犯的错是把所有问题都推给“提示词不够好”。其实问题至少分四层:任务表达、资料供给、能力边界、行为偏好。
判断表
| 现象 | 问题层级 | 先做什么 | 判断标准 |
|---|---|---|---|
| 答案跑题、格式不稳、废话多 | 任务表达 | 改提示词、给示例、限制输出结构 | 同一批输入下输出是否稳定 |
| 缺最新资料、引用不存在、公司政策答错 | 资料供给 | RAG、知识库、引用回链 | 答案是否能回到可信原文 |
| 算错、漏步骤、长任务崩掉 | 能力和流程 | 拆任务、接工具、加校验 | 每一步是否可检查、可重跑 |
| 语气、拒答边界、推荐偏好不对 | 行为偏好 | 示例库、SFT、DPO/RLHF、规则 | 是否稳定符合产品口径 |
1. 任务表达问题
这类问题通常不需要复杂系统。把任务写清楚就能明显改善。
坏信号:
- 每次输出结构都不一样;
- 模型不知道该详细还是简短;
- 它把背景信息当成指令;
- 它在没有证据时也硬给结论。
优先修:系统提示词、输入字段、输出 schema、正反例、不确定时的处理方式。
2. 资料供给问题
如果答案依赖最新政策、内部文档、用户合同、产品说明书,裸模型就不该被期待答准。
坏信号:
- 模型说得像真的,但引用查不到;
- 同一个问题,换个版本文档后答案没变;
- 它把通用知识套到你的业务规则上;
- 权限不同的用户看到同一套答案。
优先修:文档源、切片、检索、重排序、权限、引用。
3. 能力和流程问题
有些任务不是语言生成问题,而是流程问题。比如查 20 份文件、比较差异、跑计算、写代码并测试。
坏信号:
- 提示词越写越长,但错误没少;
- 模型漏掉中间步骤;
- 数字计算不稳定;
- 无法定位是哪一步错了。
优先修:拆步骤、工具调用、代码执行、检查点、评估集。
4. 行为偏好问题
这类问题不是“知道不知道”,而是“该怎么表现”。
坏信号:
- 答案事实正确,但语气不符合品牌;
- 拒答太保守或太冒进;
- 推荐排序和业务目标不一致;
- 多个可行答案里总选错风格。
优先修:高质量示例、人工偏好数据、SFT、DPO/RLHF、规则层。
最短判断流程
- 先看任务有没有说清楚。
- 再看模型有没有拿到必要资料。
- 再看任务能不能拆成可检查的步骤。
- 最后才考虑训练和偏好优化。
别把微调当万能药。多数早期问题,靠清楚的任务定义、可靠资料和可检查工作流就能解决一大半。