四类问题判断表

用问题类型判断该改提示词、补检索、接工具,还是做微调和偏好优化。

做 LLM 应用,最容易犯的错是把所有问题都推给“提示词不够好”。其实问题至少分四层:任务表达、资料供给、能力边界、行为偏好。

判断表

现象问题层级先做什么判断标准
答案跑题、格式不稳、废话多任务表达改提示词、给示例、限制输出结构同一批输入下输出是否稳定
缺最新资料、引用不存在、公司政策答错资料供给RAG、知识库、引用回链答案是否能回到可信原文
算错、漏步骤、长任务崩掉能力和流程拆任务、接工具、加校验每一步是否可检查、可重跑
语气、拒答边界、推荐偏好不对行为偏好示例库、SFT、DPO/RLHF、规则是否稳定符合产品口径

1. 任务表达问题

这类问题通常不需要复杂系统。把任务写清楚就能明显改善。

坏信号:

  • 每次输出结构都不一样;
  • 模型不知道该详细还是简短;
  • 它把背景信息当成指令;
  • 它在没有证据时也硬给结论。

优先修:系统提示词、输入字段、输出 schema、正反例、不确定时的处理方式。

2. 资料供给问题

如果答案依赖最新政策、内部文档、用户合同、产品说明书,裸模型就不该被期待答准。

坏信号:

  • 模型说得像真的,但引用查不到;
  • 同一个问题,换个版本文档后答案没变;
  • 它把通用知识套到你的业务规则上;
  • 权限不同的用户看到同一套答案。

优先修:文档源、切片、检索、重排序、权限、引用。

3. 能力和流程问题

有些任务不是语言生成问题,而是流程问题。比如查 20 份文件、比较差异、跑计算、写代码并测试。

坏信号:

  • 提示词越写越长,但错误没少;
  • 模型漏掉中间步骤;
  • 数字计算不稳定;
  • 无法定位是哪一步错了。

优先修:拆步骤、工具调用、代码执行、检查点、评估集。

4. 行为偏好问题

这类问题不是“知道不知道”,而是“该怎么表现”。

坏信号:

  • 答案事实正确,但语气不符合品牌;
  • 拒答太保守或太冒进;
  • 推荐排序和业务目标不一致;
  • 多个可行答案里总选错风格。

优先修:高质量示例、人工偏好数据、SFT、DPO/RLHF、规则层。

最短判断流程

  1. 先看任务有没有说清楚。
  2. 再看模型有没有拿到必要资料。
  3. 再看任务能不能拆成可检查的步骤。
  4. 最后才考虑训练和偏好优化。

别把微调当万能药。多数早期问题,靠清楚的任务定义、可靠资料和可检查工作流就能解决一大半。