-
题名新型加权粗糙朴素贝叶斯算法及其应用研究
被引量:6
- 1
-
-
作者
王辉
黄自威
刘淑芬
-
机构
河南理工大学计算机科学与技术学院
吉林大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第12期3668-3672,3692,共6页
-
基金
国家自然科学基金资助项目(51174263
61300216)
+1 种基金
国家教育部博士点基金资助项目(20124116120004)
河南省教育厅科学技术研究重点项目(13A510325)
-
文摘
待分类数据集中通常存在大量的冗余属性,会严重影响分类效率。为了达到在降低计算复杂度的同时提高分类准确率的目的。首先在朴素贝叶斯模型中引入粗糙集技术对数据集进行属性约简,获取最优属性子集;然后在此基础上以最大化数据集的对数条件似然估计为标准对条件属性设定(近似)最优权值,进而提出一种新型加权粗糙朴素贝叶斯模型。通过在垃圾邮件过滤领域对该模型进行实际验证表明,贝叶斯模型的分类效率有明显提高,而且分类性能更加稳定,证明该方法不仅可以有效去除冗余属性,而且为条件属性赋予的权值较之传统加权方法更加合理。
-
关键词
加权朴素贝叶斯
决策表
属性约简
对数条件似然估计
垃圾邮件过滤
-
Keywords
weighted naive Bayes
decision tables
attribute reduction
conditional log-likelihood
spam filter
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于特征项区分度的加权朴素贝叶斯邮件过滤方法
被引量:1
- 2
-
-
作者
王辉
黄自威
刘淑芬
-
机构
河南理工大学计算机科学与技术学院
吉林大学电子与工程学院
-
出处
《计算机应用与软件》
CSCD
2015年第10期67-71,81,共6页
-
基金
国家自然科学基金项目(51174263
61300216)
+1 种基金
教育部博士点基金项目(20124116120 004)
河南省教育厅科学技术研究重点项目(13A510325)
-
文摘
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。
-
关键词
垃圾邮件
特征提取
特征项区分度
加权朴素贝叶斯
-
Keywords
Spam
Feature extraction
Feature items discrimination
Weighted naive Bayes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-