第三步：三种学习方式怎么区分

用反馈来源区分监督学习、无监督学习和强化学习。

机器学习不是一种训练方法。不同学习方式的区别，核心在于模型从哪里拿反馈。

三种常见方式

方式	反馈从哪里来	典型任务	常见翻车点
监督学习	人给出的标签或标准答案	分类、预测、识别、回归	标签错、样本偏、训练集和真实场景不一致
无监督学习	数据自身的结构	聚类、降维、相似度发现	找到结构不等于结构有业务意义
强化学习	行动后的奖励或惩罚	游戏、机器人、策略优化、偏好对齐	奖励设计不好，模型会钻空子

监督学习：给题目和答案

监督学习最像刷题。你给模型大量输入和答案，让它学会从输入映射到输出。

比如：

图片 -> 猫/狗；
用户特征 -> 是否流失；
邮件内容 -> 是否垃圾邮件；
病历信息 -> 风险等级。

它的关键不是算法名字，而是标签质量。标签本身有偏，模型会把偏差学进去。

无监督学习：让模型找结构

无监督学习没有标准答案。模型要自己发现相似性、聚类或低维结构。

比如把用户自动分群、把文章按主题聚类、把高维向量降维可视化。

它的问题是：模型找到的结构未必有业务意义。两个用户在向量上相似，不等于他们真的应该被同样运营。

强化学习：根据奖励调整策略

强化学习关注行动和反馈。模型在环境中做动作，根据奖励调整策略。

游戏 AI 是直观例子。LLM 的偏好优化里也会出现强化学习相关方法，比如 RLHF 流程中的策略优化。

它的风险是奖励设计。奖励写错，模型可能学会钻规则漏洞，而不是真正完成你想要的目标。

该怎么记

有标准答案：先想监督学习；
没有标准答案，只想找结构：先想无监督学习；
有连续行动和奖励：先想强化学习。

现实系统经常混用多种方法。不要把这三类当成互斥阵营，把它们当成三种获得反馈的方式更准。

这和大模型有什么关系

大语言模型的预训练不完全等同于上面任意一种简单教科书场景。它通常会从海量文本中学习预测下一个 token，再经过指令微调、偏好优化等步骤，才变成你看到的聊天模型。

所以看到 SFT、RLHF、DPO 这些词时，不要把它们当成孤立术语。它们本质上都在回答一个问题：模型从哪里获得反馈，又根据什么信号改变行为。

第二步：为什么深度学习成为主线

深度学习让模型从原始数据中学习表示，推动了视觉、语音、语言和多模态模型的发展。

第四步：别只看训练分数，先看能不能泛化

泛化能力决定模型离开训练样本后，在新数据和真实场景里还能不能可靠工作。

On this page

三种常见方式

监督学习：给题目和答案

无监督学习：让模型找结构

强化学习：根据奖励调整策略

这和大模型有什么关系