四类问题判断表

用问题类型判断该改提示词、补检索、接工具，还是做微调和偏好优化。

做 LLM 应用，最容易犯的错是把所有问题都推给“提示词不够好”。其实问题至少分四层：任务表达、资料供给、能力边界、行为偏好。

判断表

现象	问题层级	先做什么	判断标准
答案跑题、格式不稳、废话多	任务表达	改提示词、给示例、限制输出结构	同一批输入下输出是否稳定
缺最新资料、引用不存在、公司政策答错	资料供给	RAG、知识库、引用回链	答案是否能回到可信原文
算错、漏步骤、长任务崩掉	能力和流程	拆任务、接工具、加校验	每一步是否可检查、可重跑
语气、拒答边界、推荐偏好不对	行为偏好	示例库、SFT、DPO/RLHF、规则	是否稳定符合产品口径

1. 任务表达问题

这类问题通常不需要复杂系统。把任务写清楚就能明显改善。

坏信号：

每次输出结构都不一样；
模型不知道该详细还是简短；
它把背景信息当成指令；
它在没有证据时也硬给结论。

优先修：系统提示词、输入字段、输出 schema、正反例、不确定时的处理方式。

2. 资料供给问题

如果答案依赖最新政策、内部文档、用户合同、产品说明书，裸模型就不该被期待答准。

坏信号：

模型说得像真的，但引用查不到；
同一个问题，换个版本文档后答案没变；
它把通用知识套到你的业务规则上；
权限不同的用户看到同一套答案。

优先修：文档源、切片、检索、重排序、权限、引用。

3. 能力和流程问题

有些任务不是语言生成问题，而是流程问题。比如查 20 份文件、比较差异、跑计算、写代码并测试。

坏信号：

提示词越写越长，但错误没少；
模型漏掉中间步骤；
数字计算不稳定；
无法定位是哪一步错了。

优先修：拆步骤、工具调用、代码执行、检查点、评估集。

4. 行为偏好问题

这类问题不是“知道不知道”，而是“该怎么表现”。

坏信号：

答案事实正确，但语气不符合品牌；
拒答太保守或太冒进；
推荐排序和业务目标不一致；
多个可行答案里总选错风格。

优先修：高质量示例、人工偏好数据、SFT、DPO/RLHF、规则层。

最短判断流程

先看任务有没有说清楚。
再看模型有没有拿到必要资料。
再看任务能不能拆成可检查的步骤。
最后才考虑训练和偏好优化。

别把微调当万能药。多数早期问题，靠清楚的任务定义、可靠资料和可检查工作流就能解决一大半。

大模型与提示工程

把 LLM 使用拆成任务说明、资料接入、行为适配和工作流设计，避免把所有问题都塞给提示词。

Prompt Engineering 解决什么

提示词工程解决任务表达、输入边界和输出约束问题，不负责补资料或替代系统设计。

On this page

1. 任务表达问题

2. 资料供给问题

3. 能力和流程问题

4. 行为偏好问题

最短判断流程