第四步：别只看训练分数，先看能不能泛化

泛化能力决定模型离开训练样本后，在新数据和真实场景里还能不能可靠工作。

训练集分数高，不代表模型真的好。它可能只是把训练样本记住了。

机器学习真正关心的是泛化：模型在没见过的新数据、新用户、新场景里，能不能继续做出靠谱判断。

一个简单例子

假设你训练一个模型识别猫。训练集中大多数猫都在沙发上，狗都在草地上。模型可能没有学到“猫长什么样”，而是学到“沙发背景更像猫”。

训练分数可能很好，真实使用时却会翻车：一只草地上的猫可能被识别成狗。

这就是泛化问题。

验证集和测试集的作用，是检查模型是否真的学到了可迁移规律。

但验证集必须干净：

很多“模型效果很好”的演示，问题就在这里：样本太少、太干净、太像训练数据。

泛化问题常见有两个方向：

问题	表现	常见原因
过拟合	训练集好，真实场景差	模型记住训练样本，没学到稳规律
欠拟合	训练集也不好	模型太弱、特征不足、训练不够

过拟合不是“模型太聪明”，而是模型学歪了。欠拟合也不是“数据太难”这么简单，可能是模型和任务根本不匹配。

大模型看起来更通用，但泛化问题没有消失。

它可能：

所以评价模型，不要只看排行榜。要拿你的真实任务、真实数据、真实失败案例测。

如果你在评估一个模型，不要只拿供应商给的样例测。自己准备一小批真实问题：常见问题、边界问题、坏输入、长尾场景、历史失败案例都要有。

然后把结果分开记录：哪些是事实错，哪些是格式错，哪些是漏条件，哪些是答得对但不能引用来源。这样你才能知道该补数据、改提示词、接 RAG，还是换模型。

模型是否有价值，不看它在熟题上多漂亮，而看它遇到新题时还剩多少能力。