正则化(Regularization)

正则化是在训练中加入约束或惩罚,减少模型过度贴合训练数据、提升泛化能力的方法集合。

正则化(Regularization)

正则化是一组训练方法,用来限制模型复杂度或给模型加约束,减少过拟合。它是什么?一句话说,正则化就是别让模型为了训练集分数,把噪声和偶然规律也当成真规律。

正则化复杂度护栏

图片说明:原创图示,展示正则化如何把模型从过度弯曲的拟合拉回更稳的形态。

它解决什么问题

正则化主要解决过拟合风险。常见做法包括:

  • 对过大的权重加入惩罚。
  • 限制模型复杂度。
  • 使用 dropout、数据增强或早停等方式减少记噪声。
  • 在模型选择中更重视新数据表现,而不是训练集完美贴合。

它的目标不是让训练分数最高,而是让模型在没见过的数据上更稳。

和相邻概念的边界

概念作用边界
正则化加约束、控复杂度缓解过拟合,不保证解决所有数据问题。
过拟合训练好,新数据差正则化常用于缓解它。
欠拟合模型太简单或训练不足正则化太强也可能导致欠拟合。
数据清洗改善数据质量和正则化互补,不是同一件事。

边界要记住:正则化不是越强越好。 约束太弱挡不住过拟合,太强会让模型连基本规律都学不动。

常见误解

误解 1:正则化一定会提高训练集表现

通常不会。它可能故意牺牲一点训练集表现,换取更好的泛化能力。

误解 2:只要用了正则化就不会过拟合

不对。数据泄漏、分布偏移、标签错误和评估不当仍然会造成问题。

误解 3:正则化只适合传统模型

不对。深度学习里也有许多正则化思想,例如权重衰减、dropout、数据增强和早停。

继续阅读链接

参考来源