第三步:三种学习方式怎么区分

用反馈来源区分监督学习、无监督学习和强化学习。

机器学习不是一种训练方法。不同学习方式的区别,核心在于模型从哪里拿反馈。

三种常见方式

方式反馈从哪里来典型任务常见翻车点
监督学习人给出的标签或标准答案分类、预测、识别、回归标签错、样本偏、训练集和真实场景不一致
无监督学习数据自身的结构聚类、降维、相似度发现找到结构不等于结构有业务意义
强化学习行动后的奖励或惩罚游戏、机器人、策略优化、偏好对齐奖励设计不好,模型会钻空子

监督学习:给题目和答案

监督学习最像刷题。你给模型大量输入和答案,让它学会从输入映射到输出。

比如:

  • 图片 -> 猫/狗;
  • 用户特征 -> 是否流失;
  • 邮件内容 -> 是否垃圾邮件;
  • 病历信息 -> 风险等级。

它的关键不是算法名字,而是标签质量。标签本身有偏,模型会把偏差学进去。

无监督学习:让模型找结构

无监督学习没有标准答案。模型要自己发现相似性、聚类或低维结构。

比如把用户自动分群、把文章按主题聚类、把高维向量降维可视化。

它的问题是:模型找到的结构未必有业务意义。两个用户在向量上相似,不等于他们真的应该被同样运营。

强化学习:根据奖励调整策略

强化学习关注行动和反馈。模型在环境中做动作,根据奖励调整策略。

游戏 AI 是直观例子。LLM 的偏好优化里也会出现强化学习相关方法,比如 RLHF 流程中的策略优化。

它的风险是奖励设计。奖励写错,模型可能学会钻规则漏洞,而不是真正完成你想要的目标。

该怎么记

  • 有标准答案:先想监督学习;
  • 没有标准答案,只想找结构:先想无监督学习;
  • 有连续行动和奖励:先想强化学习。

现实系统经常混用多种方法。不要把这三类当成互斥阵营,把它们当成三种获得反馈的方式更准。

这和大模型有什么关系

大语言模型的预训练不完全等同于上面任意一种简单教科书场景。它通常会从海量文本中学习预测下一个 token,再经过指令微调、偏好优化等步骤,才变成你看到的聊天模型。

所以看到 SFT、RLHF、DPO 这些词时,不要把它们当成孤立术语。它们本质上都在回答一个问题:模型从哪里获得反馈,又根据什么信号改变行为。