交叉验证法

原理及应用

“交叉验证法”(cross validation)先将数据集£1划分为fc个大小相似的互斥子集,即D = D1U D2 U… U D&, Di n Dj 二 0 (i # j).每个子集A都尽可能保持数据分布的一致性,即从D中通过分层采样得到.然后,每次用k - 1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得fc 组训练/测试集,从而可进行A次训练和测试,最终返回的是这A个测试结果的均值.显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于fc 的取值,为强调这一点,通常把交叉验证法称为”A折交叉验证”(fc-fold cross validation). k最常用的取值是10,此时称为10折交叉验证;其他常用的k值有5、 20等.图2.2给出了 10折交叉验证的示意图.