SFT / RLHF / DPO / PPO 先怎么理解

用“让模型更偏向哪种回答”理解监督微调和偏好优化。

SFT、RLHF、DPO、PPO 这几个词容易把人劝退。普通读者不用先啃算法细节,先抓住一句话:它们都在处理“模型应该更像哪种样子回答”。

它们不主要解决“模型知道什么资料”,而是解决“模型面对一类输入时,更应该怎么表现”。

SFT:给模型看示范答案

SFT(Supervised Fine-Tuning,监督微调)可以理解成“拿高质量示范答案继续训练模型”。

比如你希望模型学会:

  • 按法律摘要格式输出;
  • 用客服口吻回答;
  • 把医学问答写成固定结构;
  • 按公司内部标签体系分类工单。

SFT 的关键是样例质量。样例乱,模型就学乱;样例只有几十条,还覆盖不了真实场景,效果也不会稳。

RLHF:用人类偏好训练行为

RLHF(Reinforcement Learning from Human Feedback)大致是:人类比较多个答案哪个好,系统用这些偏好训练奖励模型,再用强化学习方法优化模型。

它解决的是“多个答案都可能通顺,但哪个更符合人的偏好”。

比如:

  • 哪个回答更安全;
  • 哪个回答更有帮助;
  • 哪个回答更少废话;
  • 哪个拒答边界更合适。

RLHF 很重要,但链路复杂,成本也高。普通产品团队一般不会从零做完整 RLHF。

DPO:更直接地学偏好

DPO(Direct Preference Optimization)也是用偏好数据训练模型,但思路比传统 RLHF 更直接,不一定需要显式训练奖励模型。

你可以把它理解成:给模型看“这个回答比那个回答更好”的成对数据,让模型更倾向于好答案。

它常用于对齐回答风格、安全边界、偏好选择等问题。

PPO:一种强化学习优化方法

PPO(Proximal Policy Optimization)是强化学习里的策略优化算法。它曾经在 RLHF 流程里很常见。

普通读者不需要记公式。你只要知道:PPO 是一种训练方法,不是一个独立产品能力。看到它时,通常是在讨论如何优化模型策略。

它们和 RAG 的区别

问题更适合的方向
模型不知道最新政策RAG / 知识库
模型回答没有引用RAG + 引用约束
模型总是不按指定格式SFT / 示例库 / 结构化输出
模型拒答太保守偏好优化 + 安全规则
模型语气不像品牌SFT / 示例数据 / 提示词

不要用训练去解决资料更新问题。资料应该可编辑、可审计、可撤回;参数不是合适的知识管理系统。

产品里该怎么判断

如果你只是做早期原型,先别急着上微调和偏好优化。更现实的顺序是:

  1. 用提示词和示例把任务跑通;
  2. 用 RAG 补资料;
  3. 建一小套评估集,看问题是否稳定复现;
  4. 如果同类错误反复出现,再考虑 SFT 或偏好优化。

训练不是最后的神药。它只是当任务稳定、数据足够、评估清楚时,才值得动用的一把重工具。