SFT / RLHF / DPO / PPO 先怎么理解
用“让模型更偏向哪种回答”理解监督微调和偏好优化。
SFT、RLHF、DPO、PPO 这几个词容易把人劝退。普通读者不用先啃算法细节,先抓住一句话:它们都在处理“模型应该更像哪种样子回答”。
它们不主要解决“模型知道什么资料”,而是解决“模型面对一类输入时,更应该怎么表现”。
SFT:给模型看示范答案
SFT(Supervised Fine-Tuning,监督微调)可以理解成“拿高质量示范答案继续训练模型”。
比如你希望模型学会:
- 按法律摘要格式输出;
- 用客服口吻回答;
- 把医学问答写成固定结构;
- 按公司内部标签体系分类工单。
SFT 的关键是样例质量。样例乱,模型就学乱;样例只有几十条,还覆盖不了真实场景,效果也不会稳。
RLHF:用人类偏好训练行为
RLHF(Reinforcement Learning from Human Feedback)大致是:人类比较多个答案哪个好,系统用这些偏好训练奖励模型,再用强化学习方法优化模型。
它解决的是“多个答案都可能通顺,但哪个更符合人的偏好”。
比如:
- 哪个回答更安全;
- 哪个回答更有帮助;
- 哪个回答更少废话;
- 哪个拒答边界更合适。
RLHF 很重要,但链路复杂,成本也高。普通产品团队一般不会从零做完整 RLHF。
DPO:更直接地学偏好
DPO(Direct Preference Optimization)也是用偏好数据训练模型,但思路比传统 RLHF 更直接,不一定需要显式训练奖励模型。
你可以把它理解成:给模型看“这个回答比那个回答更好”的成对数据,让模型更倾向于好答案。
它常用于对齐回答风格、安全边界、偏好选择等问题。
PPO:一种强化学习优化方法
PPO(Proximal Policy Optimization)是强化学习里的策略优化算法。它曾经在 RLHF 流程里很常见。
普通读者不需要记公式。你只要知道:PPO 是一种训练方法,不是一个独立产品能力。看到它时,通常是在讨论如何优化模型策略。
它们和 RAG 的区别
| 问题 | 更适合的方向 |
|---|---|
| 模型不知道最新政策 | RAG / 知识库 |
| 模型回答没有引用 | RAG + 引用约束 |
| 模型总是不按指定格式 | SFT / 示例库 / 结构化输出 |
| 模型拒答太保守 | 偏好优化 + 安全规则 |
| 模型语气不像品牌 | SFT / 示例数据 / 提示词 |
不要用训练去解决资料更新问题。资料应该可编辑、可审计、可撤回;参数不是合适的知识管理系统。
产品里该怎么判断
如果你只是做早期原型,先别急着上微调和偏好优化。更现实的顺序是:
- 用提示词和示例把任务跑通;
- 用 RAG 补资料;
- 建一小套评估集,看问题是否稳定复现;
- 如果同类错误反复出现,再考虑 SFT 或偏好优化。
训练不是最后的神药。它只是当任务稳定、数据足够、评估清楚时,才值得动用的一把重工具。