强化学习(Reinforcement Learning)

强化学习让智能体在环境中行动,根据奖励反馈学习策略,适合决策、控制和交互式任务。

强化学习(Reinforcement Learning)

强化学习是一种机器学习方式:智能体在环境中采取行动,环境返回状态和奖励,智能体再根据反馈调整策略。它是什么?一句话说,强化学习不是给每一步标准答案,而是让系统通过奖励学会怎么行动。

强化学习循环

图片说明:原创图示,展示智能体、环境、动作、状态和奖励之间的反馈循环。

它解决什么问题

强化学习适合“行动会影响下一步局面”的问题,例如:

  • 游戏智能体学习下棋或打游戏。
  • 机器人在环境中学习控制动作。
  • 推荐系统在长期反馈中优化策略。
  • 大模型训练中的偏好优化或策略改进环节。

它关心的不只是单次预测是否正确,而是长期行动序列带来的累计回报。

和相邻概念的边界

概念反馈方式边界
强化学习行动后获得奖励学策略,强调探索、长期回报和环境反馈。
监督学习每个样本有标准答案学输入到输出的映射,不直接处理长期策略。
RLHF人类反馈参与奖励建模是强化学习思想在大模型对齐中的一种路线,不等于全部强化学习。
AGI通用智能目标强化学习不是 AGI 魔法,也不能自动产生通用智能。

最重要的边界是:强化学习不是普通监督学习,也不是 AGI 魔法。 它是一套处理序列决策和奖励反馈的方法,能力取决于环境、奖励、算法和安全约束。

常见误解

误解 1:奖励越高,行为就越符合人的真实意图

不一定。奖励函数设计烂,智能体可能学会钻空子,拿到高分但做出荒唐或危险行为。

误解 2:强化学习就是让模型自己随便试

不对。真实系统通常需要仿真环境、安全边界、探索限制和人工评估,否则试错成本很高。

误解 3:AlphaGo 成功说明所有复杂任务都适合强化学习

也不对。围棋规则清晰、反馈明确;开放现实任务通常更脏、更慢、更难定义奖励。

继续阅读链接

  • 机器学习(Machine Learning):理解强化学习在机器学习中的位置。
  • RLHF:理解人类反馈如何参与大模型行为塑形。
  • PPO:理解常见策略优化算法的名字从哪里来。
  • Agents:理解真实智能体还需要工具、权限和日志。

参考来源