大数据环境下基于Spark的Bayes分类算法研究被引量：2

Research on Bayes classification algorithm based on Spark in big data environment

下载PDF

导出

摘要随着大数据的爆发,如何提高算法的执行效率是大数据分类的研究热点,Spark是分布式并行计算框架,支持迭代数据流,该文对朴素贝叶斯文本分类算法作并行流式化处理,实验证明,并行流式化Bayes分类算法能有效提高大数据分类效率。 With the big data burst,how to improve the execution efficiency of the algorithm is the research focus of big data classification,Spark is the distributed parallel computing framework,support the iterative data flow. In this paper,the naive Bayes text classification algorithm is used in parallel flow processing. Experiments show that the parallel flow type Bayes classification algorithm can effectively to improve the efficiency of data classification.

作者张睿敏张琪淼杜叔强贾桂霞 ZHANG Ruimin;ZHANG Qimiao;DU Shuqiang;JIA Guixia(Department of Software,Lanzhou Institute of Technology,Lanzhou 730050,China;Lanzhou Municipal Public Security Bureau,Lanzhou 730030,China)

机构地区兰州工业学院软件工程学院兰州市公安局

出处《工业仪表与自动化装置》 2018年第3期116-118,123,共4页 Industrial Instrumentation & Automation

基金 2016年度甘肃省高等学校科研项目自筹经费项目(2016B-115)

关键词大数据 SPARK 并行流式化贝叶斯分类 big data Spark parallel flow Bayes classification

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1张明卫,王波,张斌,朱志良.基于相关系数的加权朴素贝叶斯分类算法[J].东北大学学报（自然科学版）,2008,29(7):952-955. 被引量：32
2刘志强,顾荣,袁春风,黄宜华.基于SparkR的分类算法并行化研究[J].计算机科学与探索,2015,9(11):1281-1294. 被引量：14
3张春,郭明亮.大数据环境下朴素贝叶斯分类算法的改进与实现[J].北京交通大学学报,2015,39(2):35-41. 被引量：13
4张睿敏,张琪淼,杜叔强.Android平台上属性约简贝叶斯优化Web Services分类选择算法研究[J].工业仪表与自动化装置,2017(2):119-122. 被引量：1
5程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：745

二级参考文献53

1蔡勇,武海峰.一种基于OWL本体的Web服务组合算法研究[J].微计算机信息,2008,24(12):168-169. 被引量：4
2梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
3刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
4邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
5董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
6Han J W,Kamber M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2005:185-190. 被引量：1
7Domingos P, Pazzani M. Beyond independence: conditions for the optimality of the simple Bayesian classifier [ C]//The 13th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1996 : 105 - 112. 被引量：1
8Gou K X, Jun G X, Zhao Z. Learning Bayesian network structure from distributed homogeneous data [ C ]//SNPD. Chicago: IEEE Computer Society, 2007 : 250 - 254. 被引量：1
9Friedman N, Geiger D, Goldszrnidt M. Bayesian network classifiers[J ]. Machine Learning, 1997,29(3) : 131 - 163. 被引量：1
10Chickering D M. Learning Bayesian networks is NP-complete [M]//Douglas H. Learning from data: AI and statistics. New York: Springer-Verlag, 1996:121 - 130. 被引量：1

共引文献798

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
3吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：30
4师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
5李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
6蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：90
7施珠妹.从经验驱动到数据驱动——逮捕社会危险性评估模式的逻辑转换[J].人权研究（辑刊）,2023(1):400-422.
8韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：4
9庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
10段鹏.大数据时代的重大公共事务决策风险治理:研究历史与现状[J].文化产业研究,2019(4):20-33. 被引量：1

同被引文献18

1郭照庄,霍东升,孙月芳.密度核估计中窗宽选择的一种新方法[J].佳木斯大学学报（自然科学版）,2008,26(3):401-403. 被引量：15
2张峰,张传海,薛青.贝叶斯网络在仿真结果数据分析中的应用研究[J].系统仿真学报,2008,20(S1):291-293. 被引量：2
3傅质馨,袁越.海上风电机组状态监控技术研究现状与展望[J].电力系统自动化,2012,36(21):121-129. 被引量：72
4吴伟,吴琳.基于兵棋推演的作战效能评估方法研究[J].军事运筹与系统工程,2013,27(2):16-20. 被引量：20
5梁颖,方瑞明.基于SCADA和支持向量回归的风电机组状态在线评估方法[J].电力系统自动化,2013,37(14):7-12. 被引量：64
6薛辉,刘铁林.基于混合Beta分布的兵棋推演可信度评估方法研究[J].军事运筹与系统工程,2018,32(2):76-80. 被引量：3
7赵洪山,闫西慧,王桂兰,尹相龙.应用深度自编码网络和XGBoost的风电机组发电机故障诊断[J].电力系统自动化,2019,43(1):81-86. 被引量：61
8郑小霞,赵华,刘璐洁,符杨.考虑可及性的海上风机综合维护策略[J].电网技术,2014,38(11):3030-3036. 被引量：20
9郭慧东,王玮,夏明超.基于数据挖掘的风电机组变桨系统劣化状态在线辨识方法[J].中国电机工程学报,2016,36(9):2389-2397. 被引量：31
10司光亚,高翔,刘洋,吴琳.基于仿真大数据的效能评估指标体系构建方法[J].大数据,2016,2(4):57-68. 被引量：18

引证文献2

1秦园丽,张训立,陶海军,王康.基于贝叶斯理论的兵棋演习数据分析方法研究[J].火箭军工程大学学报,2019(3):34-38. 被引量：1
2魏书荣,闫梦飞,任子旭,符杨,王毅,王栋悦,潘捷.考虑运行环境影响的海上双馈风电机组状态判别[J].电力系统自动化,2022,46(20):181-189. 被引量：8

二级引证文献9

1陈雨鸽,陈昌铭,张思,杨莉,王慧芳,林振智.考虑时空耦合的小水电富集型虚拟电厂优化调度策略[J].电力系统自动化,2022,46(18):90-98. 被引量：11
2宋明阳,瞿晟珉,秦少茜,应飞祥,马永杰,黄玲玲.基于故障风险水平的海上风电场机会维护策略[J].电力工程技术,2023,42(6):117-129. 被引量：6
3李荣森,李志强,曹毅,司光亚.基于总线的兵棋推演实时数据采集管理设计与实现[J].指挥控制与仿真,2023,45(6):102-111.
4徐浩,魏佳.基于大数据的风电远控系统采集数据与分析[J].电工技术,2023(20):110-113. 被引量：2
5罗平,朱振宇,樊星驰,孙博宇,张帆,吕强.基于时序生成对抗网络的居民用户非侵入式负荷分解[J].电力系统自动化,2024,48(2):71-81.
6曹宏宇,耿大洲,查浩,胡振亚.海上风电与海洋油气融合实现绿色电能替代研究[J].水力发电,2024,50(7):86-92. 被引量：1
7刘乃皓,高厚磊,徐彬,彭放,袁通.经柔性高压直流输电并网的海上风电送出线路拟功率和、差波形比较式纵联保护[J].电力自动化设备,2024,44(8):62-69.
8王金贺,麻敬,甘婕,夏玉强,杨晓梅.考虑运维环境影响的风电系统维修决策建模[J].中国电机工程学报,2024,44(21):8507-8517.
9孟庆伟,李鑫,王伟宇,陈继明.风电供能海上平台孤网负荷侧调频策略研究[J].中国电机工程学报,2024,44(22):8786-8795.

1龚维印,王力.基于卷积神经网络和XGBoost的文本分类[J].通信技术,2018,51(10):2337-2342. 被引量：7
2彭舰,孙海,陈瑜,仝博,黄飞虎.基于马尔科夫链的轻轨乘客轨迹预测新算法[J].电子科技大学学报,2018,47(5):720-725. 被引量：4
3金秀,姜尚伟,苑莹.基于股吧信息的投资者情绪与极端收益的可预测性研究[J].管理评论,2018,30(7):16-25. 被引量：29
4林卉,邵聪颖,李海涛,顾海燕,王李娟.高分辨率遥感影像5种面向对象分类方法对比研究[J].测绘通报,2017(11):17-21. 被引量：18
5杨玉新.Bayes分类设备在入侵检测中的应用[J].电子技术与软件工程,2018(6):222-223.
6韩丽娜.贝叶斯分类模型在学生成绩预测中的应用研究[J].计算机与数字工程,2018,46(10):2039-2041. 被引量：8
7吕佳,黎隽男.结合半监督聚类和数据剪辑的自训练方法[J].计算机应用,2018,38(1):110-115. 被引量：6
8吴地尧,章新友,甘宇汾,于思婷.数据挖掘算法在中药研究中的应用[J].中国药房,2018,29(19):2717-2722. 被引量：26
9雷海锐,高秀峰,刘辉.基于机器学习的混合式特征选择算法[J].电子测量技术,2018,41(16):42-46. 被引量：7
10郑秀娟.基于随机前沿的物流业发展效率及区域差异分析[J].统计与决策,2018,0(18):121-124. 被引量：15

工业仪表与自动化装置

2018年第3期

浏览历史

内容加载中请稍等...

大数据环境下基于Spark的Bayes分类算法研究被引量：2

参考文献5

二级参考文献53

共引文献798

同被引文献18

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于Spark的Bayes分类算法研究 被引量：2

参考文献5

二级参考文献53

共引文献798

同被引文献18

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于Spark的Bayes分类算法研究被引量：2