admin管理员组

文章数量:1650768

Feature Importance

闲话

几周没用CSDN,发现编辑器的字体变了。最近看了几篇讲特征重要性的文章。在这里【简要】记录一下我的总结,对不熟悉相关知识的读者做个导航。

优点

  • 知道数据中的特征对预测的重要性,可以让我们对模型/数据的理解更加深刻——可解释性。
  • 降维
  • 特征选择——减少参数/提升效率/提升效果

主要类型

  1. 相关系数
    一些基础的机器学习模型,例如线性回归(linear regression)、logistic regression等模型,其中的权重等可以看作是重要性
  2. 模型本身带来的特征重要性
    类似于决策树/随机森林(Decision Tree)、XGBoost等模型,模型本身就可以输出特征重要性等信息。
  3. 特征扰动
    对数据集中的某一类feature进行shuffle,然后在测试集上进行(多次)测试,查看模型效果的(平均)下降程度,下降的越多代表重要性越高。(优点:无需重新训练模型,独立于模型/数据。)

其他

读者还可以关注一些模型可解释性的论文。

搜索的关键词:Interpretability, explainable, causal inference, mutual information, sharpley, interpretable machine learning, XAI

  1. Aaron Fisher, Cynthia Rudin, and Francesca Dominici. All Models are Wrong, but Many are Useful: Learning a Variable’s Importance by Studying an Entire Class of Prediction Models Simultaneously. Journal of Machine Learning Research, 20 (177): 1-81, 2019.

本文标签: 重要性特征机器Importancefeature