用过拟合、欠拟合、泛化和正则化判断模型为什么训练分数漂亮，上线以后却不稳定。

过拟合：模型不是越会背题越聪明

理解机器学习的最后一层，不是再记更多算法，而是看懂模型为什么会在真实场景里失灵。最典型的翻车方式就是：训练时分数很好，换一批新数据就明显变差。这通常指向一个核心问题——模型没有学到可迁移的规律，而是记住了训练数据里的细节、噪声或偏差。

这就是 Overfitting。它和 Generalization ability 是一组反着看的概念：泛化好，说明模型离开训练样本仍能工作；过拟合严重，说明模型像背题库，题库一换就露馅。

三个诊断词

诊断词	典型表现	普通读者该怎么理解	常见修法
过拟合	训练集很好，验证集、测试集或真实场景变差。	模型把偶然细节当成规律。	更多代表性数据、数据增强、正则化、早停、降低模型复杂度。
欠拟合	训练集和新数据都差。	模型太简单、特征不够，或训练还没学到主规律。	更合适的模型、更多有效特征、更充分训练。
正则化	故意给模型加约束。	不让模型为了训练分数无限钻细节。	L1/L2、dropout、早停、数据增强等。

训练集是模型看过的“课本”。如果一个模型足够复杂，它可能记住课本里的特殊样子：某些背景、拍摄角度、措辞习惯、人群分布、时间段，甚至标注错误。这样训练分数会很好看，但真实使用时输入稍微变了，它就不知道该抓什么。

所以严肃评估不会只看训练分数，而会至少拆出 Training Data、Validation Data 和测试/上线数据。验证集用来调模型，测试集或真实监控才更接近验收现场。

过拟合不是“小模型差、大模型好”的简单问题。大模型也可能记住错误模式，小模型也可能因为太弱而欠拟合。真正要看的，是任务、数据、模型复杂度和评估方式是否匹配。

如果你正在读机器学习章节，推荐顺序是：机器学习到底在学什么 → 三种学习范式 → 泛化能力 → 本页。读完后再回到关键术语地图，这些词会连起来。