基于邻域互信息最大相关性最小冗余度的特征选择|电子爱好者

admin管理员组
文章数量:1533874

2024年3月26日发(作者：)

基于邻域互信息最大相关性最小冗余度的特征选择

林培榕

【摘要】Feature selection is an important data preprocessing technique,

where mutual information has been widely studied in information measure.

However, mutual information cannot directly calculate relevancy among

numeric features. In this paper, we first introduce neighborhood entropy

and neighborhood mutual information. Then, we propose neighborhood

mutual information based max relevance and min redundancy feature

selection. Finally, experimental results show that the proposed method can

effectively select a discriminative feature subset, and outperform or equal

to other popular feature selection algorithms in classification performance.%

特征选择是一种重要的数据预处理步骤，其中互信息是一类重要的信息度量方法。

本文针对互信息不能很好地处理数值型的特征，介绍了邻域信息熵与邻域互信息。

其次，设计了基于邻域互信息的最大相关性最小冗余度的特征排序算法。最后，用

此算法选择前若干特征进行分类并与其它算法比较分类精度。实验结果表明本文提

出算法在分类精度方面且优于或相当于其它流行特征选择算法。

【期刊名称】《漳州师范学院学报（自然科学版）》

【年(卷),期】2013(000)004

【总页数】6页(P13-18)

【关键词】特征选择;邻域互信息;最大相关性;最小冗余度

【作者】林培榕

【作者单位】闽南师范大学计算机科学与工程系，福建漳州 363000

【正文语种】中文

【中图分类】TP391

特征选择作为一种重要的数据预处理步骤，广泛应用于数据挖掘和模式识别的各个

领域[1-3]. 其基本思想是从样本数据集中的原始特征空间找一个特征子集，使得该

子集比原始特征包含更多与类别相关的知识，同时又使得子集内部的冗余程度尽量

少. 特征选择算法一般分为过滤式、嵌入式和封装式三大类，其中，过滤式与具体

算法相互独立，且易于理解，得到许多学者的广泛关注.

过滤式的特征选择算法主要计算特征的重要度，然后按照特征的重要度进行排序.

过滤式的特征选择算法主要采用信息熵或大间隔方法. 对基于互信息的特征选择算

法，一般需对数据集进行离散化，而离散化会对数据原始信息产生丢失；若不离散

化，一般采用Parzen窗口进行概率密度的估计，而该方法计算时间复杂度较高.

经典的特征选择算法如：CFS[4]，FCBF[5]，mRMR[6]等. 对基于大间隔的特征选

择算法，主要分为三类，其一直接利用不同类别样本的间隔最大化进行特征选择，

如Relief[7], Simba[8]等；其二利用间隔损失函数最小化进行估算特征权重，如

Lasso[9]；其三，利用支持向量机进行训练特征的权重，如SVM-RFE[10].

针对传统信息熵进行特征选择时需要离散化的缺点，本文引入了邻域信息熵与邻域

互信息，使其能够很好地处理数值型或者混合型的数据. 在利用邻域互信息进行度

量信息之间相关性时，从特征与类标签的重要性及已选特征与候选特征之间的冗余

度出发，提出了一种基于邻域互信息最大相关性最小冗余度的特征排序算法. 该算

法首先考虑特征与类标签的重要性，选择具有最大相关性的特征. 其次，该算法考

虑已选特征与候选特征之间的冗余度，选择与已选特征具有最小冗余度的特征. 最

后，按照选入的特征顺序对原始的特征空间进行排序. 该算法通过改变邻域大小可

以有效地处理名义型、数值型及混合型的数据，此外，实验表明该算法通过选择前

若干特征在分类精度上与其它特征算法相比有较大的提高.

综上，本文主要内容安排如下：第二节介绍了邻域熵与邻域互信息的概念及相关性

质；第三节设计了基于邻域互信息的最大相关性最小冗余度的特征排序算法；第四

节针对提出的算法进行实验验证，并对实验结果的比较进行分析；第五节总结全文.

文献[11]指出邻域熵是Shannon熵的自然拓展.

定义 1[11]给定由特征集刻画的论域,是任意的特征子集, 为该特征空间中样本邻域

关系. 利用特征子集计算得到的邻域记为, 那么该邻域粒子的不确定度为

邻域近似空间<>的不确定性为

定义 2[11]是描述对象的两组特征. 在特征空间的邻域记为, 那么和的联合邻域熵定

义为

特别地, 当是输入变量, 是类标签时, 得,此时

定义 3[11]是描述对象的两组特征. 已知特征后特征的条件邻域熵为

定义 4[11]是描述对象的两组特征. 和的邻域互信息定义为

性质1 给定两组特征和, 是这两组特征的邻域互信息, 那么以下公式成立:

(1) =;

(2) =+-;

(3) =-=-.

特征选择的目的之一在于选择与类标签具有最大相关性的特征子集，该方法称为最

大相关性特征选择. 此方法的基本思想是计算每个特征与类标签的互信息，从中选

择一个特征子集，使得其互信息之和达到最大值. 本文利用邻域互信息代替互信息

（下面类同），其公式如下：

然而，根据公式(7)得到特征子集并未考虑到已选特征之间的冗余性. 因此，在选择

特征的时候，不仅需要考虑特征对类标签的重要性，还需考虑候选特征与已选特征

之间的冗余度，选择具有最小冗余度的特征子集方法称为最小冗余性. 计算两个特

征之间的冗余性如公式(8)所示：

特征选择过程中，联合最大相关性与最小冗余性能够有效地获取重要的特征，而且

可以尽力删除冗余的特征. 利用公式(7)与(8)，可得公式(9)：

对于公式(9), 其中代表所有特征，代表已选个特征，代表候选特征.

本文在对特征的重要性及特征之间的冗余性分析的基础上，用改进的邻域互信息计

算特征之间及特征与类标签之间的相关性，设计基于邻域互信息的最大相关性最小

冗余度的特征排序算法. 该算法利用公式(9)将中的特征进行排序，中的特征排序算

法如下：

算法1. 基于邻域互信息的最大相关性最小冗余度的特征选择算法（NMImRMR)

输入：数据集，阈值.

输出：特征排序.

初始化；

While

寻找候选特征使得公式(10)取最大值；

；

End

按照的选入顺序排序

返回.

为了验证所提出算法的有效性，我们从UCI 数据集中挑选了四个常用数据集. 为了

验证算法的适用性，数据集的特征数量从13到34个，类别从两类到三类，具体

描述信息见表1. 同时，我们进行两组实验，第一组实验与经典的特征选择算法

Relief及NFARNRS[12]进行比较测试特征选择后的分类精度；另一组检测

NMImRMR与Relief随着已选特征数量变化时其分类精度的变化. 最后评价采用

十折交叉验证法，其中分类器分别采用LSVM和KNN(K=1).

实验一：为了验证NMImRMR的特征选择效果，本实验中，与其它流行的特征选

择算法进行了比较，其中将NMImRMR，NFARNRS涉及到的参数统一设置为

0.1. 由于NFARNRS直接得到特征选择结果，而NMImRMR与Relief得到是特

征的排序. 为了统一比较，利用NFARNRS得到的特征个数统一作为NMImRMR

与Relief最后得到的特征个数，表2显示这三种算法得到的特征子集. 为了比较不

同特征选择算法在四个UCI数据集上进行特征选择后的分类精度，在表3及4中

加粗的单元格代表分类精度最高. 另外，最后一行显示不同特征选择算法的平均分

类精度. 从表3与4可以看出，不管是LSVM还是KNN分类器，NMImRMR的

平均分类精度都取得最高，且当分类器为LSVM时，NMImRMR在四个数据集上

都取得最优. 因此，从本实验可以看出，与其它流行的直接处理数值型特征的特征

选择算法相比，说明了本文提出的NMImRMR算法具有较为优越的性能.

实验二：由于NMImRMR与Relief都属于过滤式的特征选择算法，最终得到是特

征的排序. 为了比较实验比较，取前K个特征作为最终的特征选择结果比较

NMImRMR与Relief的性能. 本实验采用LSVM作为分类器，检验在不同特征子

集上的分类精度. 图1中X轴表示取前K个特征为最终特征选择结果，Y轴表示分

类精度. 图1中可以看出，在取前K个特征作为特征选择结果时，NMImRMR基

本上取得比Relief更好的分类结果. 因此NMImRMR在处理数值型或者混合型的

数据时，能有效地进行特征选择.

针对传统的信息熵不能处理数值型或者混合型的数据，本文引入邻域信息熵和邻域

互信息. 从特征与类标签的重要性及特征之间的冗余度出发，提出了一种基于邻域

互信息的最大相关性最小冗余度的特征排序算法NMImRMR. 该方法不仅拓展了

信息熵的使用范围，而且能有效地针对各种类型数据集进行特征选择. 在公开UCI

数据集上的实验结果表明，本文方法的特征选择结果优于或相当于其他相关特征选

择算法.

[1] I. Guyon, A. Elisseeff. An introduction to variable and feature selection[J].

Journal of Machine Learning Research, 2003, (3): 1157-1182.

[2] M. Dash, H. Liu. Feature selection for classification[J]. Intelligent Data

Analysis, 1997, (1): 131-156.

[3] W. Z. Zhu, G. Q. Si, Y. B. Zhang, J. C. Wang. Neighborhood effective

information ratio for hybrid feature subset evaluation and selection[J].

Neuro computing, 2013, (99): 25-37.

[4] M. A. Hall. Correlation-based Feature Selection for Discrete and

Numeric Class Machine Learning[C]//Proceedings of the Seventh

International Conference on Machine Learning, 2003: 359-366.

[5] L. Yu, H. Liu. Feature selection for high-dimensional data: a fast

correlationbased filter solution[C]//Proceedings of the Twentieth

International Conference on Machine Learning, 2003: 856-863.

[6] H. C. Peng, F. H. Long, C. Ding. Feature selection based on mutual

information: criteria of Max-Dependency, Max-Relevance, and Min-

Redundancy[C]//IEEE Transactions on Pattern Analysis and Machine

Intelligence, 2005, (27): 1226-1238.

[7] I. Kononenko. Estimating attributes: analysis and extensions of

RELIEF[C]//Proceedings European Conference Machine Learning, 1994:

171-182.

[8] R. Gilad-Bachrach, A. Navot, N. Tishby. Margin based feature selection-

theory and algorithms[C]//proceedings of the 21st International

Conference on Machine Learning, 2004: 40-48.

[9] R. Tibshirani. Regression shrinkage and selection via the lasso[J].

Journal of the Royal Statistical Society. Series B, 1996, (58): 267-288.

[10] I. Guyon, J. Weston, S. Barnhill, V. Vapnik. Gene Selection for Cancer

Classification using Support Vector Machines[J]. Machine Learning, 2002,

(46): 389-422.

[11] Q. H. Hu, L. Zhang, D. Zhang, et al. Measuring relevance between

discrete and continuous features based on neighborhood mutual

information[J]. Expert Systems with Applications, 2011, (38): 10737-10750.

[12] Q. H. Hu, D. R. Yu, J. F. Liu, C. X. Wu. Neighborhood rough set based

heterogeneous feature selection[J]. Information Sciences, 2008, (178):

3577-3594.

本文标签：特征算法邻域进行

版权声明：本文标题：基于邻域互信息最大相关性最小冗余度的特征选择内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1711426858a309179.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

基于邻域互信息最大相关性最小冗余度的特征选择

更多相关文章

【算法】布隆过滤器

远程控制turtlebot跑通hector-slam算法

算法“视”界杯来袭，2021腾讯广告算法大赛正式开启

鲁大师测试软件的算法,鲁大师正式发布PC新版：重建算法引擎，新增显卡光追测试！...

排行榜top7的代码和说明文档分享_2017知乎机器学习算法挑战赛

调用QQTIM算法实现获取当前登陆账号和ClientKey

算法（结合算法图解）

编程奇境：C++之旅，从新手村到ACMOI算法竞赛大门（基础语法）

有哪些特征一眼就会被看出是安卓用户？

算法很美

【3维视觉】一文带你学习网格细分Mesh Subdivision算法（Loop, Butterfly, Modified Butterfly, Catmull-Clark, Doo-Sabin）

Recorder︱图像特征检测及提取算法、基本属性、匹配方法

机器算法学习

实时调度算法和可调度性测试为可持续性(sustainability)和自可持续性(self-sustainability)基本概念以及作用详解

算法数据结构（三十四）----根据对数器找规律&amp;根据数据量猜解法&amp;分治

Apriori算法进行关联分析

【算法分析】多个对比算法的统计检验方法

文心一言 VS 讯飞星火 VS chatgpt （311）-- 算法导论22.2 9题

文心一言 VS 讯飞星火 VS chatgpt （321）-- 算法导论22.3 13题

DL：深度学习算法(神经网络模型集合)概览之《THE NEURAL NETWORK ZOO》的中文解释和感悟(五)

发表评论

推荐文章

从移动硬盘恢复已删除的文件的6个有效方法分享

win11使用移动硬盘(固态&amp;非固态)卡顿问题解决

Java 异常（Exception）简介及异常处理方式

linux kernel调试

谷粒商城 高级篇 (十七) --------- 单点登录

热门文章

Ubuntu 下安装新世纪五笔输入法

C++基础入门：实现类似暴风影音的影音播放器！（源码展示）

路由器wifi热点丢包率高_使用笔记本电脑和虚拟路由器创建自己的Wifi热点

U盘安装win7或win8原装系统

OCP-1Z0-053-200题-123题-213

【jiasuba】WindowsXP升级Windows7过程中时出现了问题

c语言的常用英语单词和翻译,c语言通用英语词汇带翻译

计算机桌面底下显示条,电脑屏幕出现条纹怎么办【图文教程】

【实操】下载在线m3u8视频为本地mp4

Input ANR的触发流程

最新文章

chain of thought 也就是 CoT思维链

详解ASP.NET 生成二维码实例（采用ThoughtWorks.QRCode和QrCode.Net两种方式）

myeclipse创建maven项目pom报错，Failure to transfer com.thoughtworks.xstream:xstream:jar:1.3.1

ThoughtWorks面试失败

com.thoughtworks.xstream.XStream的使用注意

Multimodal Chain-of-Thought Reasonging in Language Models的阅读笔记

Apax Partners收购ThoughtWorks幕后探秘

ThoughtWorks全球CEO郭晓谈软件人才的招聘与培养

CODING 携手 Thoughtworks 助力老百姓大药房打造”自治、自决、自动”的敏捷文化

基于大模型思维链（Chain-of-Thought）技术的定制化思维链提示和定向刺激提示的心理咨询场景定向ai智能应用

ThoughtWorks 技术雷达十周年峰会在深举行

ThoughtWorks，我的2015

thoughtworks面试流程

mvn package时，报错A required class is missing: comthoughtworksxstreamioHierarchicalStreamDriver...

ThoughtWorks.QRCode 生成QR二维码时提示“索引超出了数组界限”的原因和解决方法...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

算法数据结构（三十四）----根据对数器找规律&根据数据量猜解法&分治

win11使用移动硬盘(固态&非固态)卡顿问题解决

谷粒商城高级篇 (十七) --------- 单点登录

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载