强化学习让智能体在环境中行动，根据奖励反馈学习策略，适合决策、控制和交互式任务。

强化学习（Reinforcement Learning）

强化学习是一种机器学习方式：智能体在环境中采取行动，环境返回状态和奖励，智能体再根据反馈调整策略。它是什么？一句话说，强化学习不是给每一步标准答案，而是让系统通过奖励学会怎么行动。

强化学习循环

图片说明：原创图示，展示智能体、环境、动作、状态和奖励之间的反馈循环。

它解决什么问题

强化学习适合“行动会影响下一步局面”的问题，例如：

它关心的不只是单次预测是否正确，而是长期行动序列带来的累计回报。

概念	反馈方式	边界
强化学习	行动后获得奖励	学策略，强调探索、长期回报和环境反馈。
监督学习	每个样本有标准答案	学输入到输出的映射，不直接处理长期策略。
RLHF	人类反馈参与奖励建模	是强化学习思想在大模型对齐中的一种路线，不等于全部强化学习。
AGI	通用智能目标	强化学习不是 AGI 魔法，也不能自动产生通用智能。

最重要的边界是：强化学习不是普通监督学习，也不是 AGI 魔法。 它是一套处理序列决策和奖励反馈的方法，能力取决于环境、奖励、算法和安全约束。

不一定。奖励函数设计烂，智能体可能学会钻空子，拿到高分但做出荒唐或危险行为。

不对。真实系统通常需要仿真环境、安全边界、探索限制和人工评估，否则试错成本很高。

也不对。围棋规则清晰、反馈明确；开放现实任务通常更脏、更慢、更难定义奖励。