训练集、验证集、测试集

训练集

训练集用于训练模型，理论上训练集越大越好。

大多数机器学习算法具有超参数，超参数的值无法通过学习算法拟合出来（比如正则化项的系数、控制模型容量的参数）。为了解决这个问题，可以引入验证集。将训练数据分成两个不相交的子集：训练集用于学习模型，验证集用于选择超参数。

通常要求验证集足够大。如果验证集很小，那么模型的超参数可能就记住了一个小验证集里的样本，模型将对验证集严重过拟合。验证集通常会低估泛化误差。因此当超参数优化完成后，需要通过测试集来估计泛化误差。

测试集用于评估模型的泛化误差。理论上测试集越大，则模型的泛化误差评估的越准确。测试集中一定不能含有训练集中的样本。如果将训练样本放入测试集中，则会低估泛化误差。

测试集 vs 验证集：

测试集通常用于对模型的预测能力进行评估，它提供了模型预测能力的无偏估计。如果不需要对模型预测能力的无偏估计，则不需要测试集。
验证集用于超参数的选择，它无法提供模型预测能力的有偏估计。因为模型依赖于超参数，而超参数依赖于验证集。因此验证集参与了模型的构建，这意味着模型已经考虑了验证集的信息。

对于百万级别的数据，其中 $1$ 万条作为验证集、 $1$ 万条作为测试集即可。
验证集的目的就是验证不同的超参数；测试集的目的就是比较不同的模型。一方面它们要足够大，才足够评估超参数、模型；另一方面，如果它们太大，则会浪费数据（验证集和训练集的数据无法用于训练）。

先将所有数据拆分成 $k$ 份，然后其中 $1$ 份作为测试集，其他 $k-1$ 份作为训练集。这里并没有验证集来做超参数的选择。所有测试集的测试误差的均值作为模型的预测能力的一个估计。

使用 $k$ 折交叉的原因是：样本集太小。如果选择一部分数据来训练，则有两个问题：

深度学习时代，经常会发生：训练集和验证集、测试集的数据分布不同。如：训练集的数据可能是从网上下载的高清图片，测试集的数据可能是用户上传的、低像素的手机照片。

如果发生了数据分布不匹配问题，则可以想办法让训练集的分布更接近验证集。

当训练集和验证集、测试集的数据分布不同时，有以下经验原则：

当训练集和验证集、测试集的数据分布不同时，分析偏差和方差的方式有所不同。