泛化能力，过拟合，欠拟合，不收敛，奥卡姆剃刀

泛化能力

欠拟合过拟合与不收敛

用比较直白的话来讲，就是通过数据训练学习的模型，拿到真实场景去试，这个模型到底行不行，如果达到了一定的要求和标准，它就是行，说明泛化能力好，如果表现很差，说明泛化能力就差。为了更好的理解泛化能力，这里引入三种现象，欠拟合、过拟合以及不收敛。

举个例子来说明下，好比高考数学考试，为了在高考能有个好成绩，高一到高三，好多人会采用“题海战术”来训练自己的做题能力，但高考试卷上的题，都是新题，几乎没有一模一样的题，学生们为了掌握解题规律就不停的刷题，希望最后自己碰到类似的题，能够举一反三，能学以致用，这种规律掌握的适用性，就是泛化能力。
有的人对相似题型的解题规律掌握的很好，并且解题效果也很好，这种就是泛化能力强，这种同学往往数学成绩就好。
有的同学成绩不好，就是泛化能力差，可能有三种情况

为了更直观展示，引用了几张图来说明，如下图所示，真实曲线是正弦曲线，蓝色的点是训练数据，红色的线为拟合曲线。
图片[1] - 泛化能力，过拟合，欠拟合，不收敛，奥卡姆剃刀 - 我的学记|刘航宇的博客
图片[2] - 泛化能力，过拟合，欠拟合，不收敛，奥卡姆剃刀 - 我的学记|刘航宇的博客

解决手段

在深度学习的模型建立过程中，一般都是用已经产生的数据训练，然后使用训练得到的模型去拟合未来的数据，借此来预测一些东西。在机器学习和深度学习的训练过程中，经常会出现欠拟合和过拟合的现象。训练一开始，模型通常会欠拟合，所以会对模型进行优化，等训练到一定程度后，就需要解决过拟合的问题了。

一、模型训练拟合的分类和表现

如何判断过拟合呢？我们在训练的时候会定义训练误差，验证集误差，测试集误差（即泛化误差）。训练误差总是减少的，而泛化误差一开始会减少，到了一定程度后不减少反而开始增加，这时候便出现了过拟合的现象。

如下图，直观理解，欠拟合就是还没有学习到数据的特征，还有待继续学习，所以此时判断的不准确；而过拟合则是学习的太彻底，以至于把数据的一些不需要的局部特征或者噪声所带来的特征都给学习到了，所以在测试的时候泛化误差也不佳。
图片[3] - 泛化能力，过拟合，欠拟合，不收敛，奥卡姆剃刀 - 我的学记|刘航宇的博客
从方差和偏差的角度来说，欠拟合就是在训练集上高方差，高偏差，过拟合就是高方差，低偏差。为了更加直观，我们看下面的图
图片[4] - 泛化能力，过拟合，欠拟合，不收敛，奥卡姆剃刀 - 我的学记|刘航宇的博客
对比上图，图一的拟合并没有把大体的规律给拟合出来，拟合效果不好，这个就是欠拟合，还需要继续学习规律，此时模型简单；图三的拟合过于复杂，拟合的过于细致，以至于拟合了一些没有必要的东西，这样在训练集上效果很好，但放到测试集和验证集就会不好。图二是最好的，把数据的规律拟合出来了，也没有更复杂，更换数据集后也不会效果很差。

在上面的拟合函数中，可以想到，图三过拟合的拟合函数肯定是一个高次函数，其参数个数肯定比图二多，可以说图三的拟合函数比图二要大，模型更加复杂。这也是过拟合的一个判断经验，模型是否过于复杂。另外针对图三，我们把一些高次变量对应的参数值变小，也就相当于把模型变简单了。从这个角度上讲，可以减少参数值，也就是一般模型过拟合，参数值整体比较大。从模型复杂性上讲，可以是：

 ——模型的参数个数；

 ——模型的参数值的大小。

个数越多，参数值越大，模型越复杂。

二、欠拟合

欠拟合的表现
有什么方法来判断模型是否欠拟合呢？其实一般都是依靠模型在训练集和验证集上的表现，有一个大概的判断就行了。如果要有一个具体的方法，可以参考机器学中，学习曲线来判断模型是否过拟合，如下图：
欠拟合的解决方案
（1）增加数据特征：欠拟合是由于学习不足导致的，可以考虑添加特征，从数据中挖掘更多的特征，有时候嗨需要对特征进行变换，使用组合特征和高次特征；
（2）使用更高级的模型：模型简单也会导致欠拟合，即模型参数过少，结构过于简单，例如线性模型只能拟合一次函数的数据。尝试使用更高级的模型有助于解决欠拟合，增加神经网络的层数，增加参数个数，或者使用更高级的方法；
（3）减少正则化参数：正则化参数是用来防止过拟合的，出现欠拟合的情况就要考虑减少正则化参数。

三、过拟合

过拟合的定义
模型在训练集上表现好，但在测试集和验证集上表现很差，这就是过拟合
过拟合的原因
（1）数据量太小
这是很容易产生过拟合的原因。设想我们有一组数据很好的满足了三次函数的规律，但我们只取了一小部分数据进行训练，那么得到的模型很可能是一个线性函数，把这个线性函数用于测试集上，可想而知肯定效果很差。（此时训练集上效果好，测试集效果差）
（2）训练集和验证集分布不一致
这也是很大一个原因。训练集上训练出来的模型适合训练集，当把模型应用到一个不一样分布的数据集上，效果肯定大打折扣，这个是显而易见的。
（3）网络模型过于复杂
选择模型算法时，选择了一个复杂度很高的模型，然而数据的规律是很简单的，复杂的模型反而不适用了。
（4）数据质量很差
数据有很多噪声，模型在学习的时候，肯定也会把噪声规律学习到，从而减少了一般性的规律。这个时候模型预测效果也不好。
（5）过度训练
这是同第四个相联系的，只要模型训练时间足够长，那么模型肯定会把一些噪声隐含的规律学习到，这时候降低模型的性能也是显而易见的。
解决方法
（1）降低模型复杂度
处理过拟合的第一步就是降低模型复杂度。为了降低复杂度，我们可以简单地移除层或者减少神经元的数量使得网络规模变小。与此同时，计算神经网络中不同层的输入和输出维度也十分重要。虽然移除层的数量或神经网络的规模并无通用的规定，但如果你的神经网络发生了过拟合，就尝试缩小它的规模。
（2）数据集扩增
在数据挖掘领域流行着这样的一句话，“有时候往往拥有更多的数据胜过一个好的模型”。因为我们在使用训练数据训练模型，通过这个模型对将来的数据进行拟合，而在这之间又一个假设便是，训练数据与将来的数据是独立同分布的。即使用当前的训练数据来对将来的数据进行估计与模拟，而更多的数据往往估计与模拟地更准确。因此，更多的数据有时候更优秀。但是往往条件有限，如人力物力财力的不足，而不能收集到更多的数据，如在进行分类的任务中，需要对数据进行打标，并且很多情况下都是人工得进行打标，因此一旦需要打标的数据量过多，就会导致效率低下以及可能出错的情况。所以，往往在这时候，需要采取一些计算的方式与策略在已有的数据集上进行手脚，以得到更多的数据。
通俗的讲，数据机扩增即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般有以下方法：
```
 ——从数据源头采集更多数据
 ——复制原有数据加上噪声
 ——重采样
 ——根据当前数据集估计数据分布参数，利用该分布产生更多数据
```
（3）数据增强
使用数据增强可以生成多幅相似图像。这可以帮助我们增加数据集从而减少过拟合。因为随着数据量的增加，模型无法过拟合所有样本，因此不得不进行泛化。计算机视觉领域通常的做法有：翻转，平移，旋转，缩放，改变亮度，添加噪声等。
（4）正则化
正则化是指在进行目标函数或者代价函数优化时，在目标函数或者代价函数后面加上一个正则项，一般有L1正则和L2正则等。
L1惩罚项的目的是使权重绝对值最小化，公式如下：

L1惩罚项的目的是使权重的平方最小化，公式如下：

下面对两种正则化方法进行了比较：

如果数据过于复杂以致没有办法进行准确的建模，那么L2是更好的选择，因为它能够学习数据中呈现的内在模式。而当数据足够简单，可以精确建模的话，L1更合适，对于我遇到的大多数计算机视觉问题，L2正则化几乎总是可以给出最好的结果。然而L1不容易受到离群值的影响。所以正确的正则化选项取决于我们想要解决的问题。
总结：
正则项是为了降低模型的复杂度，从而避免模型过分拟合训练数据，包括噪声与异常点。从另一个角度讲，正则化即是假设模型参数服从先验概率，即为模型参数添加先验，只是不同的正则化方式的先验分布是不一样的。这样就规定了参数的分布，使得模型的复杂度降低（试想一下，限定条件多了，是不是模型的复杂度就降低了呢），这样模型对于噪声和异常点的抗干扰性的能力增强，从而提高模型的泛化能力。还有个解释，从贝叶斯学派来看，加了先验，在数据少的时候，先验知识可以防止过拟合；从频率学派来看，正则项限定了参数的取值，从而提高了模型的稳定性，而稳定性强的模型不会过拟合，即控制模型空间。
另外一个角度，过拟合从直观上理解便是，在对训练数据进行拟合时，需要照顾到每个点，从而使得拟合函数波动性非常大，即方差大。在某些小区间里，函数值的变化很剧烈，意味着函数在某些小区间的导数值的绝对值非常大，由于自变量的值在给定的训练数据集中是一定的，因为只有系数足够大，才能保证导数的绝对值足够大，如下图：

另一个解释，规则化项的引入，在训练（最小化cost）的过程中，当某一维的特征所对应的权重过大时，而此时模型的预测和真实数据之间的距离很小，通过规则化项就可以使整体的cost取较大的值，从而，在训练的过程中避免了去选择了那些某一维（或几维）特征权重过大的情况，即过分依赖某一维（或几维）的特征。
L1和L2的区别是，L1正则是拉普拉斯先验，L2正则则是高斯先验。它们都是服从均值为0，协方差为1/λ。当λ=0，即没有先验，没有正则项，则相当于先验分布具有无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合拟合所有的训练集数据，参数可以变得任意大从而使得模型不稳定，即方差大而偏差小。λ越大，表明先验分布协方差越小，偏差越大，模型越稳定。即，加入正则项是在偏差bias与方差variance之间做平衡tradeoff。下图即为L2与L1正则的区别：

上图中的模型是线性回归，有两个特征，要优化的参数分别是w1和w2，左图的正则化是L2，右图是L1。蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分），二者相交处，才是最优参数。可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏。
其实拉普拉斯分布和高斯分布是数学家从试验中误差服从什么分布研究得出的。一般直观上的认识是服从均值为0的对称分布，并且误差大的概率低，误差小的概率高，因为拉普拉斯使用拉普拉斯分布对误差的分布进行拟合，如下图：

而拉普拉斯在最高点，即自变量为0处不可导，因为不便于计算，于是高斯在这基础上使用高斯分布对其进行拟合，如下图：

（5）dropout
正则时通过再代价函数后面加上正则项来防止过拟合的。而在神经网络中，有一种方法时通过修改神经网络本身结构实现的，其名为dropout。该方法是对网络进行训练时用的一种技巧，对于如下的三层人工神经网络：

对于上图所示的网络，在训练开始时，随即删除一些（可自己设定概率）隐藏层神经元，即认为这些神经元不存在，同时保持输入层和输出层的个数不变，这样便得到如下的ANN：

然后按照BP学习算法对ANN中的参数进行学习更新（虚线链接的单元不更新，因为认为这些连接元被临时删除了）。这样一次迭代更新便完成了，下一次迭代中，同样随机删除一些神经元，与上次不一样，做随机选择，这样一直进行，直至训练结束。
这种技术被证明可以减少很多问题的过拟合，这些问题包括图像分类，图像切割，词嵌入，语义匹配等问题。
（6）早停
对模型的训练即是对模型的参数进行更新的过程，这个参数学习的过程往往会用到一些迭代方法，如梯度下降（Gradient descent）学习算法。Early stopping一种迭代次数截断的方法来防止过拟合的方法，即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。
Early stopping方法的具体做法是，在每一个Epoch结束时（一个Epoch集为对所有的训练数据的一轮遍历）计算验证集的正确率，当正确率不再提高时，就停止训练。这种做法很符合直观感受，因为正确率都不在提高了，再继续训练也是无益的，只会提高训练的时间。如下图，在几次迭代后，即使训练误差仍然在减少，但测验误差已经开始增加了。

那么该做法的一个重点便是怎样才认为验证准确率validation accurary不再提高了呢？并不是说验证准确率validation accurary一降下来便认为不再提高了，因为可能经过这个Epoch后，正确率降低了，但是随后的Epoch又让正确率又上去了，所以不能根据一两次的连续降低就判断不再提高。一般的做法是，在训练的过程中，记录到目前为止最好的验证准确率validation accurary，当连续10次没达到最佳正确率时，认为不再提高了，此时便可以停止迭代。这种策略也称为“No-improvement-in-n”，n即Epoch的次数，可以根据实际情况取，如10、20、30……
（7）重新清洗数据
把明显异常的数据剔除。
（8）使用集成学习方法
把多个模型集成在一起，降低单个模型的过拟合风险。