admin管理员组

文章数量:1531281


2024年6月14日发(作者:)

目录

1 背景与挖掘目标........................................................................................................ 2

2朴素贝叶斯分类算法................................................................................................. 2

2.1贝叶斯公式....................................................................................................... 2

2.2 朴素贝叶斯分类过程...................................................................................... 4

3 实验过程.................................................................................................................... 4

3.1实验数据........................................................................................................... 4

3.2实验源代码....................................................................................................... 5

3.3测试结果分析................................................................................................... 9

4 实验总结.................................................................................................................. 11

4.1 开发环境与软件配置.................................................................................... 11

4.2 小组分工........................................................................................................ 11

4.3 个人小结........................................................................................................ 11

参考文献...................................................................................................................... 12

1 背景与挖掘目标

近年来,手机短信因其资费低廉、方便快捷的特点很快为人们所接受,成为

最流行的通信方式之一,但是大量不良与垃圾信息的出现,干扰了广大手机用户

的正常交流,影响了通信行业的良性发展,引起了社会各界的广泛关注。垃圾短

信严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安

全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短

信分类的研究具有重要的意义。

本文从短信文本内容角度出发,将垃圾短信过滤看作短信文本的两类识别问

题(即识别短信是否属于垃圾短信的过程)。现在的垃圾短信过滤技术主要有:黑

白名单过滤、关键词过滤和基于内容的过滤。然而这种单一功能的过滤技术的过

滤能力比较有限,很多垃圾短信都过滤不了。本文设计并通过python编程朴素

贝叶斯分类,将统计的短信进行分类挖掘,提取垃圾短信特征,将垃圾短信过滤

出来。

2朴素贝叶斯分类算法

目前著名的文本分类方法有Bayes、LLSF、SVM、KNN、决策树等贝叶斯(Bayes)

分类方法是一种最常用的有指导的方法"以贝叶斯定理为理论基础"是一种在已

知先验概率与条件概率的情况下的模式识别方法) 贝叶斯分类器分两种:一种是

朴素贝叶斯分类器"它假设一个属性对给定类的影响独立于其他属性"即特征独

立性假设) 当假设成立时"与其他分类算法相比"朴素贝叶斯分类器是最精确的)

但是"文本属性之间的依赖关系是可能存在的) 另一种是贝叶斯网络分类器) 可

以考虑属性之间的依赖程度"其计算复杂度比朴素贝叶斯高得多"更能反映真实

文本的情况) 贝叶斯网络分类器实现十分复杂"目前还停留在理论的研究阶段)

因此本系统采用朴素贝叶斯分类算法解决短信内容检测+分类问题).朴素贝叶斯

分类器假设特征对于给定类的影响独立于其它特征"即特征独立性假设)

2.1贝叶斯公式

条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件

概率表示为 P ( A | B) ,读作“在 B 条件下 A 的概率”。•

比如,在同一个样本空间Ω中的事件或者子集 A 与 B ,如果随机从Ω中选出


本文标签: 短信垃圾分类过滤影响