基于数据填补和连续属性的朴素贝叶斯算法被引量：4

Naive Bayes based on data filling and continuous attribute

下载PDF

导出

摘要朴素贝叶斯算法(NB)在处理分类问题时通常假设训练样本的数值型连续属性满足正态分布,其分类精度也受到训练数据完整性的影响,而实际采样数据很难满足上述要求。针对数据缺失问题,基于期望最大值算法(EM),将朴素贝叶斯分类器利用已有的不完整数据进行参数学习;针对样本数值型连续属性非正态分布的情况,基于核密度估计,利用其分布密度(Distribution Density)和新的分析计算方法来求最大后验分布,同时用标准数据集的分类实验验证了改进的有效性。将改良的算法EM-DNB应用在生物工程蛋白质纯化工艺预测中,实验结果表明,预测精度有所提高。 When dealing with classification problem, Naive Bayes（NB）usually assumes that the numerical continuous attributes follow normal distribution, the classification accuracy is also affected by the integrity of training data. But the actual sampled data are difficult to meet the above requirements. For missing data, the Naive Bayesian classifier uses existing incomplete data to implement parameter learning based on the Expectation-Maximum（EM）algorithm; for nonnormal numerical continuous attributes, distribution density based on kernel density estimation and a new method are used to calculate the maximum posterior probability, meanwhile, the classification experiment using standard data sets verifies the effectiveness of the improvement. Finally, the improved algorithm（EM-DNB）is applied to the prediction of the protein purification technologies in biological engineering. The experimental results show that the accuracy is improved.

作者李忠波杨建华刘文琦

机构地区大连理工大学控制科学与控制工程学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第1期133-140,共8页 Computer Engineering and Applications

基金国家科技重大专项(No.2009ZX09306-004 No.2011ZX09101-008-09)

关键词朴素贝叶斯(NB) 期望最大值(EM)算法连续属性核密度估计蛋白质纯化 Naive Bayes（NB） Expectation-Maximum（EM）algorithm continuous attributes kernel density estimation protein purification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献26

1Zhang H.The optimality of Naive Bayes[C]//Proceedings of FLAIRS-2004 Conference,2004. 被引量：1
2张其文,李明.一种缺失数据的填补方法[J].兰州理工大学学报,2006,32(2):102-104. 被引量：7
3方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2):87-92. 被引量：31
4张靖,姚珍,唐雪飞.基于决策树的不完整数据的处理[J].电子科技大学学报,2007,36(1):116-118. 被引量：6
5张宏亭,李学仁,孔韬.BP神经网络在缺失数据估计中的应用[J].计算机工程与设计,2007,28(14):3457-3459. 被引量：13
6Ramoni M,Sebastiani P.Robust Bayes classi fi ers[J].Artif Intell,2001,125(1/2):209-226. 被引量：1
7郑建军,刘炜,刘玉树,王蕾.基于粗集的贝叶斯分类器算法[J].北京理工大学学报,2003,23(1):83-86. 被引量：6
8邓桂骞,赵跃龙,刘霖,王元华.一种优化的贝叶斯分类算法[J].计算机测量与控制,2012,20(1):199-201. 被引量：14
9邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
10饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报（自然科学版）,2012,51(4):682-685. 被引量：30

二级参考文献136

1王双成,苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048. 被引量：62
2王旭阳,李明.一种基于Rough Set的分类规则挖掘方法[J].兰州理工大学学报,2004,30(5):93-95. 被引量：3
3程泽凯,林士敏,陆玉昌,蒋望东,陆小艺.基于Matlab的贝叶斯分类器实验平台MBNC[J].复旦学报（自然科学版）,2004,43(5):729-732. 被引量：27
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5陈伟,丁秋林.数据清理中不完整数据的清理方法[J].微型机与应用,2005,24(2):44-45. 被引量：7
6谢川,倪世宏,张宗麟.一种缺失飞行参数预处理的新方法[J].计算机仿真,2005,22(4):27-31. 被引量：9
7宇传华,余松林,徐勇勇.比例优势模型实现ROC分析的方法及其应用前景分析[J].中国卫生统计,2005,22(5):293-296. 被引量：5
8胡学钢,郭亚光.一种基于粗糙集的朴素贝叶斯分类算法[J].合肥工业大学学报（自然科学版）,2006,29(2):169-172. 被引量：11
9张其文,李明.一种缺失数据的填补方法[J].兰州理工大学学报,2006,32(2):102-104. 被引量：7
10宋花玲,贺佳,黄品贤,李素云.ROC曲线下面积估计的参数法与非参数法的应用研究[J].第二军医大学学报,2006,27(7):726-728. 被引量：74

共引文献201

1马飞虎,曾聪,金依辰,孙翠羽,陈华鹏.一种基于属性加权朴素贝叶斯算法的OTSU图像分割方法[J].应用科学学报,2022,40(2):224-232. 被引量：8
2张清华.一种分层递阶的模糊决策方法[J].微电子学与计算机,2009,26(2):118-121. 被引量：1
3裴庆祺,赵鹏,张红斌,王超,尹浩.内部威胁身份鉴别系统的研究[J].通信学报,2009,30(S2):121-126.
4李六杏,区凤霞.基于最优属性约简的中文邮件过滤系统[J].电脑知识与技术,2007(3):1240-1241.
5何伟,孔梦荣,赵海青.基于贝叶斯分类器的气象预测研究[J].计算机工程与设计,2007,28(15):3780-3782. 被引量：11
6朱彦彩,王选年,银梅,乔新安,吴艳云,熊静.His6免疫原的制备及免疫小鼠抗体效价检测[J].河南农业科学,2007,36(12):116-119. 被引量：4
7王金龙,徐从富,徐娇芬,骆国靖.利用销售数据的商品影响关系挖掘研究[J].电子科技大学学报,2007,36(6):1282-1285. 被引量：2
8汤方,高希武.昆虫谷胱甘肽S-转移酶蛋白纯化技术研究[J].昆虫知识,2007,44(6):810-814. 被引量：2
9孙凌燕,徐维祥.基于加权朴素贝叶斯分类的供应商评价模型[J].物流技术,2008,27(5):72-74. 被引量：1
10张明卫,王波,张斌,朱志良.基于相关系数的加权朴素贝叶斯分类算法[J].东北大学学报（自然科学版）,2008,29(7):952-955. 被引量：32

同被引文献44

1杨锡运,张艳峰,叶天泽,苏杰.基于朴素贝叶斯的风电功率组合概率区间预测[J].高电压技术,2020,46(3):1099-1108. 被引量：57
2张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
3李宏,阿玛尼,李平,吴敏.基于EM和贝叶斯网络的丢失数据填充算法[J].计算机工程与应用,2010,46(5):123-125. 被引量：21
4李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9
5徐丽,马培军,苏小红.基于K-Medoids聚类的多传感器航迹关联算法[J].哈尔滨工业大学学报,2012,44(1):107-110. 被引量：5
6刘全,王晓燕,傅启明,张永刚,章晓芳.双精英协同进化遗传算法[J].软件学报,2012,23(4):765-775. 被引量：86
7李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
8饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报（自然科学版）,2012,51(4):682-685. 被引量：30
9刘银萍,马晓悦,赵志文.缺失数据场合泊松分布参数的贝叶斯估计[J].吉林师范大学学报（自然科学版）,2012,33(3):13-15. 被引量：4
10武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62

引证文献4

1梁秉毅,蔡延光,蔡颢,戚远航,黄何列,Ole Hejlesen.基于优化决策树和EM的缺失数据填充算法[J].自动化与信息工程,2017,38(5):37-43. 被引量：2
2李彦,刘军.面向大数据的多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(10):432-435. 被引量：11
3任世超,黄子良.基于二维信息增益加权的朴素贝叶斯分类算法[J].计算机系统应用,2019,28(6):135-140. 被引量：3
4李舒,张伟业,汪坤,段照斌.基于聚类分析的航班油耗组合估计[J].计算机与现代化,2022(8):65-69.

二级引证文献16

1姚启芳.基于模糊聚类的养生旅游资源信息检索方法[J].廊坊师范学院学报（自然科学版）,2020,20(1):81-85. 被引量：2
2王志刚,田立勤,毛亚琼.一种基于相关系数加权的离散型数据填补算法与分析[J].现代电子技术,2020,43(9):109-112. 被引量：2
3时巍.云计算下相关性缺失大数据分块填补仿真[J].计算机仿真,2020,37(4):432-435.
4张李平.基于无人机航测的复杂沟谷地形沉降观测方法[J].蚌埠学院学报,2020,9(2):125-128. 被引量：2
5张庆庆.基于局部加权重构的缺失数据自动恢复系统设计[J].自动化与仪器仪表,2020(5):110-113. 被引量：1
6罗飞.基于机器学习的汉英翻译自动校准方法研究[J].自动化与仪器仪表,2020(8):146-149. 被引量：3
7陈娟,王献雨,罗玲玲,崔晶晶.缺失值填补效果:机器学习与统计学习的比较[J].统计与决策,2020(17):28-32. 被引量：17
8岳根霞,刘金花,刘峰.基于决策树算法的医疗大数据填补及分类仿真[J].计算机仿真,2021,38(1):451-454. 被引量：15
9阎馨,朱永浩,屠乃威,吴书文,王雨虹.基于PCA与权重贝叶斯的工作面煤与瓦斯突出预测[J].计算机工程,2021,47(8):315-320. 被引量：9
10贺双柒,翟亮亮.基于多Agent的HRMS终端用户大数据信息获取模型[J].信息技术,2021,45(9):155-159. 被引量：7

1曾传璜,张鑫,张晶晶,王宏渊.EM算法的研究[J].软件导刊,2008,7(9):97-98. 被引量：5
2聂庆华,杨利华.缺失或不完备数据的填补方法分析[J].科技创新与应用,2012,2(9):46-46.
3陈坚刚,余冰宾.“干实验”研究——在微机上模拟蛋白质纯化实验[J].实验技术与管理,2008,25(12):123-126.
4白彦辉,李旭超.EM与PSO算法在图像统计模型拟合中的应用[J].科学技术与工程,2013,21(1):236-239. 被引量：1
5李旭超.图像统计模型参数估计中的期望最大值算法[J].中国图象图形学报,2012,17(6):619-629. 被引量：6
6周石泉,蒙祖强.基于数据相容填补的极大相容块构造算法[J].计算机科学,2012,39(9):192-197. 被引量：1
7顾凌韬,金隼,曹俊,孙广建.基于特征的公差分析及其非线性问题研究[J].机械设计与制造,2007(4):42-44. 被引量：5
8陈家俊,苏守宝,金萍.一种对象完备度优先填补的决策树规则提取算法[J].计算机应用与软件,2014,31(5):264-267. 被引量：5
9伊卫国,冯向营.不完备数据集的关联分析填补方法及应用[J].大连交通大学学报,2015,36(6):99-101. 被引量：1
10郑奇斌,刁兴春,曹建军,周星,许永平.结合局部敏感哈希的k近邻数据填补算法[J].计算机应用,2016,36(2):397-401. 被引量：4

计算机工程与应用

2016年第1期

浏览历史

内容加载中请稍等...

基于数据填补和连续属性的朴素贝叶斯算法被引量：4

参考文献26

二级参考文献136

共引文献201

同被引文献44

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于数据填补和连续属性的朴素贝叶斯算法 被引量：4

参考文献26

二级参考文献136

共引文献201

同被引文献44

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于数据填补和连续属性的朴素贝叶斯算法被引量：4