admin管理员组

文章数量:1660218

Bootstrap estimate of prediction error

  • 1 一般方法
  • 2 改进方法1 - the more refined bootstrap approach
  • 3 改进方法2 - 0.632 bootstrap estimate
  • 4 结果
  • 参考书目

1 一般方法

定义一个测量误差的函数Q(表示的是响应变量 y y y和预测值 y ^ \hat{y} y^之间的差异),对回归模型来说,一般选择平方损失函数,分类问题一般选择示性函数 Q = I ( y ≠ y ^ ) Q = I(y \neq \hat{y}) Q=I(y=y^),在此,我们选择测量误差为负对数似然函数。

如果直接用原始数据进行估计,然后计算原始数据的负对数似然,这种误差称为“apparent error”。这种误差一般比较小,无法忽略掉过拟合的问题。所以对于预测误差的bootstrap estimate一般采用以下方法:

  • 产生B个bootstrap samples,在每个样本上估计model,然后将模型应用到原始数据(original sample),共产生B个预测误差,最终求平均值(prediction error)。

或者采用0.632 bootstrap estimator

  • 产生B个bootstrap samples 作为训练集,在原始数据中,训练集没有出现的样本作为测试集,在训练集上训练模型,并应用到测试集计算预测误差,共产生B个预测误差,求平均值。

2 改进方法1 - the more refined bootstrap approach

首先定义一个概念:“optimism
o p t i m i s m = p r e d i c t i o n e r r o r − a p p a r e n t e r r o r optimism= prediction error - apparent error optimism=predictionerrorapparenterror

假如现在有一个新的样本,直接用训练好的模型进行计算,得到的预测误差后再加上optimism,就是改进的bootstrap estimate,称为the more refined bootstrap approach。

3 改进方法2 - 0.632 bootstrap estimate

假如0.632方法计算出来误差是prediction error2,那么改进的0.632 bootstrap estimate为:
e r r 0.632 = 0.368 ∗ a p p a r e n t e r r o r + 0.632 ∗ p r e d i c t i o n e r r o r 2 err0.632 = 0.368 * apparent error + 0.632 * prediction error2 err0.632=0.368apparenterror+0.632predictionerror2

4 结果

  • 4.1 直接使用一般方法(应用到原始数据)的结果:
ModelIsotropicDiagonalPPCA(p=1)PPCA(p=2)PPCA(p=3)PPCA(P=4)FULL
Numbers of Paras11819365267171
Prediction Error22.8617.0620.8217.0616.4616.0368.54
  • 4.2 直接使用0.632方法的结果:
ModelIsotropicDiagonalPPCA(p=1)PPCA(p=2)PPCA(p=3)FULL
Numbers of Paras118193652171
Prediction Error22.4017.1221.4017.7018.28160.78

参考书目

BRADLEY EFRON,ROBERT J. TIBSHIRANI .《An Introduction to the Bootstrap》

本文标签: 误差bootstrapestimatepredictionError