基于归一化词频贝叶斯模型的文本分类方法被引量：10

Normalized term frequency Bayes for text classification

下载PDF

导出

摘要为降低海量文本分类中词频信息和文本长度对分类结果的影响,提出归一化词频的贝叶斯分类模型。基于分布式计算框架MapReduce平台,采用文本中高词频特征的对数平均计算方法进行文本长度的归一化处理,解决朴素贝叶斯模型在文本分类中参数估计的不足。实验结果表明,该方法在分类准确率上优于朴素贝叶斯方法,具有良好的扩展性和伸缩性,能够应用于大数据的文本快速分类。 To reduce the impact of document length and the information of words frequencies on the classification performances,normalized term frequency Bayes was proposed.Based on a distributed computing framework of MapReduce,the logarithm of high word frequency was computed and the text length was normalized to solve rough parameter estimation of Naive Bayes.Experimental results show that the improved method is superior to the Naive Bayesian method on the classification accuracy,and it has good scalability and extensibility,which can be used to classify large-scale data.

作者张杰陈怀新

机构地区中国电子科技集团第十研究所

出处《计算机工程与设计》北大核心 2016年第3期799-802,共4页 Computer Engineering and Design

关键词文本分类朴素贝叶斯参数估计词频特征并行计算 text classification Naive Bayes parameter estimation words frequency parallel computing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：330
2Upadhyaya SR. Parallel approaches to machine learning-a comprehensive survey [J]. Journal of Parallel and Distributed Computing, 2013, 73 (3): 284-292. 被引量：1
3Wu W, Li H, Wang H, et al. Probase: A probabilistic taxo- nomy for text understanding [C] //ACM SIGMOD Interna- tional Conference on Management of Data, 2012: 481-492. 被引量：1
4Lo S, Ding L. Probabilistic reasoning on back ground net: An application to text categorization [C] //International Conference on Machine Learning and Cybernetics, 2012: 688-694. 被引量：1
5巩知乐,张德贤,胡明明.一种改进的支持向量机的文本分类算法[J].计算机仿真,2009,26(7):164-167. 被引量：37
6Zeng Y, Yang Y, Zhao L. Pseudo nearest neighbor rule for pattern classification[J]. Expert Systems with Applications, 2009, 36 (2): 3587-3595. 被引量：1
7赵喆,向阳,王继生.基于并行计算的文本分类技术[J].计算机应用,2013,33(A02):60-62. 被引量：4
8White T. Hadoop.. The definitive guide [M]. O' Reilly Media Ine, 2009. 被引量：1
9Fereira CR, Junior TC, Traina AJM, et al. Clustering very large multi-dimensional datasets with MapReduce [C] //17th ACM SIGKDD International Conference on Knowledge Disco- very and Data Mining, 2011: 690-698. 被引量：1
10Kim BJ. A classifier for big data [C] //6th International Conference on Convergence and Hybrid Information Technolo- gy, 2012: 505-512. 被引量：1

二级参考文献95

1搜狐研发中心.搜狗文本分类语料库[EB/OL].2008.http://www.sogou.oom/labs/dl/c.html. 被引量：3
2DEAN J, GHEMAWAT S. MapReduce: simplified data processingon large clusters [ C] // Proceedings of the 6th Symposium on Oper-ating Systems Design and Implementation. San Francisco, CA,USA: USENIX Association, 2004: 137-149. 被引量：1
3YANG Y,PEDERSEN J 0. A comparative study on feature selec-tion in text categorization [ C]// Proceedings of the Fourteenth Inter-national Conference on Machine Learning. San Francisco: MorganKaufmann, 1997: 412 -420. 被引量：1
4FORMAN G. An extensive empirical study of feature selection met-rics for text classification[ J]. Machine Learning Research, 2003,3(1):1289 -1305. 被引量：1
5CORTES C,VAPNIK V. Support-vector networks [ J]. MachineLearning, 1995, 20(3):273 -297. 被引量：1
6VAPNIK V. The nature of the statistical learning theory [ M]. NewYork; Springer, 1999. 被引量：1
7黄陳.支持向量机核函数的研究[D].苏州:苏州大学,2008. 被引量：1
8OSUNA E,FREUND R,GIROSI F. Training support vector ma-chines: an application to face detection [ C] // Proceedings of the1997 IEEE Computer Society Conference on Computer Vision andPattern Recognition. Washington, DC: IEEE Computer Society,1997: 130-136. 被引量：1
9SCHOLKOPF B, BURGES C,SMOLA A J. Advances in kernelmethods - support vector learning [ M]. Cambridge: MIT Press,1999:185 -208. 被引量：1
10LI H G, WU G Q. K-means clustering with bagging and MapReducef CJ// Proceedings of the 2011 44th Hawaii International Conferenceon System Sciences. Washington, DC: IEEE Computer Society,2011: 1 -8. 被引量：1

共引文献368

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
3张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
4朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
5李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
6宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
7王刚.大数据在硝酸生产中的应用[J].自动化与仪器仪表,2016(7):242-244. 被引量：1
8谢长菊.支持向量机新模型及其参数特性研究[J].计算机仿真,2010,27(4):188-191.
9张敬平,王立新.电路故障个体化诊断仿真研究[J].计算机仿真,2010,27(8):168-170. 被引量：1
10龚永罡,汤世平.面向大数据的SVM参数寻优方法[J].计算机仿真,2010,27(9):204-207. 被引量：12

同被引文献115

1罗建国.图书分类[J].图书馆,1980(2):27-33. 被引量：1
2李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量：10
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5蒋建国,苏兆品,张国富,夏娜.多任务联盟形成中的Agent行为策略研究[J].控制理论与应用,2008,25(5):853-856. 被引量：9
6唐华姣,何友全,徐小乐,徐澄.基于Lucene的分布式并行索引[J].计算机技术与发展,2011,21(2):123-126. 被引量：7
7柳虹,徐金华.网络舆情热点发现研究[J].科技通报,2011,27(3):421-425. 被引量：24
8吴济民.国外化工企业工艺安全技术管理概述[J].中国安全生产科学技术,2011,7(7):192-198. 被引量：24
9YAN TaiSheng,ZHANG YanXia,ZHAO YongHeng,LI Ji.Exploration of SDSS stellar database by AutoClass[J].Science China(Physics,Mechanics & Astronomy),2011,54(9):1717-1726. 被引量：1
10张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(2):825-828. 被引量：19

引证文献10

1周建,高晓东.基于特征权重的词条匹配系统研究与实现[J].南通大学学报（自然科学版）,2017,16(3):15-19.
2龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10
3文武,李培强.基于K中心点和粗糙集的KNN分类算法[J].计算机工程与设计,2018,39(11):3389-3394. 被引量：8
4田桂,谢凯.LSTM-RBM-NMS模型下的视频人脸检测方法研究[J].电脑知识与技术,2019,15(2):176-177. 被引量：1
5刘康炜,万剑华,靳熙芳.基于故障树的事故分类方法[J].计算机系统应用,2019,28(6):130-134.
6李川,张少茹.基于用户特定特征及内容的景点推荐模型研究[J].计算机与数字工程,2019,47(10):2492-2495. 被引量：2
7谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
8孙梦楠,刘少华,刘京城.顾及空间各向异性的IDW插值算法[J].计算机工程与设计,2020,41(4):983-987. 被引量：5
9李锋,万小强.基于关联矩阵的短信自动分类[J].计算机科学,2017,44(S1):428-432.
10杨亚,易远弘.图书馆海量学术资源自动分类模型研究[J].知识管理论坛,2018(3):172-179. 被引量：2

二级引证文献36

1高传斌,朱莉,刘浩,卢浩琴.基于高斯函数定权的毫米波全息成像算法[J].微波学报,2021,37(S01):203-207.
2徐明磊,赵博文,诸葛福民.高校网络舆情获取方法研究[J].软件导刊,2018,17(10):48-50. 被引量：1
3李时.基于大数据的电网设备台账对应准确度提升[J].电力大数据,2018,21(11):15-21. 被引量：3
4宫小翠,安新颖,单连慧.基于Labeled LDA主题模型的医学文献自动分类法[J].中华医学图书情报杂志,2018,27(10):53-58. 被引量：3
5张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报（自然科学版）,2019,21(3):69-72. 被引量：8
6周爱国,王嘉立,杨思静,沈勇,楼狄明.基于K-means和K近邻的DPF设备故障分类算法[J].内燃机与配件,2019(12):57-59. 被引量：4
7万富强,谢凯,李先苦.基于面向对象程序设计的危险驾驶检测方法研究[J].电脑知识与技术,2019,15(6):199-200.
8谢浩然,卫巍,杨志辉,邓居智,葛坤朋.基于TF-IDF的新型广播电视节目协同推荐流程[J].计算机与现代化,2019,0(9):65-71. 被引量：6
9刘华祠.基于传统机器学习与深度学习的图像分类算法对比分析[J].电脑与信息技术,2019,27(5):12-15. 被引量：27
10张戈.课程推荐预测模型优化方案及数据离散化算法[J].计算机系统应用,2020,29(4):248-253.

1卢志翔,蒙丽莉.文本分类中特征项权重算法的改进[J].柳州师专学报,2011,26(4):128-131. 被引量：1
2刘玮,廖祥文,许洪波,王丽宏.基于统计特征的垃圾博客过滤[J].中文信息学报,2008,22(6):86-91. 被引量：6
3廖松博,何震瀛.HDCH:MapReduce平台上的音频数据聚类系统[J].计算机研究与发展,2011,48(S3):472-475. 被引量：3
4于琨,耿焕同,寇苏玲,张婷慧,蔡庆生.用于Email分类的综合特征表示方法[J].小型微型计算机系统,2006,27(5):930-932.
5任永功,尹明飞,杨荣杰.基于组合特征的动态垃圾博客过滤算法[J].计算机科学,2012,39(5):177-179. 被引量：2
6何敏,武德安,吴磊.基于MapReduce的平均多项朴素贝叶斯文本分类[J].计算机应用研究,2016,33(1):115-117. 被引量：5
7Teradata迎战大数据时代[J].通讯世界,2011(10):78-78.
8席萌,郭巧.基于语境关联的Web信息过滤算法[J].华中科技大学学报（自然科学版）,2003,31(S1):102-104. 被引量：1
9钱泉.基于MapReduce的聚集查询性能优化[J].信息与电脑（理论版）,2014,0(7):86-88.
10白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7

计算机工程与设计

2016年第3期

浏览历史

内容加载中请稍等...

基于归一化词频贝叶斯模型的文本分类方法被引量：10

参考文献15

二级参考文献95

共引文献368

同被引文献115

引证文献10

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于归一化词频贝叶斯模型的文本分类方法 被引量：10

参考文献15

二级参考文献95

共引文献368

同被引文献115

引证文献10

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于归一化词频贝叶斯模型的文本分类方法被引量：10