基于Hadoop平台的文本相似度检测系统的研究被引量：5

Research on Text Similarity Detection System Based on Hadoop

下载PDF

导出

摘要在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息增益的TFIDF算法(TFIDFWGE)。该算法通过对给定的关键词添加位置权重与计算熵值和信息增益,得到关键词的最终权值,并利用Hadoop平台的Map/Reduce框架来实现TFIDFWGE算法和向量空间模型(VSM)的文本相似度计算过程。通过对两组真实的数据集进行的实验结果表明,与现有的TFIDF算法相比,TFIDFWGE算法的查全率和查准率更高,且在Hadoop平台上实现的文本相似度检测系统对信息量大的文本库处理效率更加高效。 In existing method of calculating similarity ,TFIDF which is usually used to obtain weights of key words doesn＇ t take into con- sideration the influence of key words＇ position and their dispersion in text library, and moreover runs in low efficiency when dealing with large quantity of data. To tackle the problems above, propose a kind of TFLDF algorithm （TFIDFWGE） based on the semantic informa- tion entropy and information gain by adding position weight to key words and calculating the entropy and information gain to acquire final value. The algorithm adds position weight and calculation entropy and information gain for given keywords to get the final weights of keywords, and use Map/Reduce framework of Hadoop platform to achieve TFIDFWGE algorithms and Vector Space Model （VSM） in the text similarity calculation process. Experimental results on two real datasets show that compared with the existing TFIDF, TFIDF- WGE＇ s recall and precision is higher,and in the Hadoop platform text similarity detection system is more efficient for information large text database processing.

作者王小林肖慧邰伟鹏

机构地区安徽工业大学计算机与技术学院

出处《计算机技术与发展》 2015年第8期90-93,共4页 Computer Technology and Development

基金国家自然科学基金资助项目(6100311) 安徽省自然科学研究重点项目(KJ2013Z023 KJ2013A058)

关键词文本相似度语义 Map/Reduce框架 TFIDF算法 TFIDFWGE算法 text similarity semantic Map/Reduce framework TFIDF TFIDFWGE

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Salton G, Wong A, Yang C S. A vector space model for auto- matic indexing[ J ]. Communication of ACM, 1975,18 ( 11 ) : 613-620. 被引量：1
2Salton G, Buckley C. Term-weighting approaches in automatic retrieval[J ]. Information Processing and Management, 1988, 24(5) :513-523. 被引量：1
3施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
4龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
5李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17
6周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
7张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
8李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
9向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
10王润华.基于Hadoop集群的分布式日志分析系统研究[J].科技信息,2009(15):60-60. 被引量：9

二级参考文献76

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
3宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
4谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
7苏亮,聂峰光,郭力,李晓霞,梁春燕.隐含语义检索系统词条权重的处理[J].计算机与应用化学,2005,22(11):972-976. 被引量：4
8陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
9许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
10李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19

共引文献473

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
4田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
5吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：2
6王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：2
7葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
8陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
9杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
10孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.

同被引文献71

1胡凌.刷脸:身份制度、个人信息与法律规制[J].法学家,2021(2):41-55. 被引量：64
2苏力.解释的难题:对几种法律文本解释方法的追问[J].中国社会科学,1997(4):11-32. 被引量：288
3王立建,陈壮,王欣,代红.中文信息处理标准化[J].信息技术与标准化,2004(11):21-24. 被引量：3
4秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
5郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
6施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
7毛林,高正红.概念层次下文本特征权修正[J].科技创新导报,2009,6(27):190-191. 被引量：2
8孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61
9魏韡,向阳,陈千.计算术语间语义相似度的混合方法[J].计算机应用,2010,30(6):1668-1670. 被引量：7
10葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66

引证文献5

1陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：74
2俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：28
3郝淼,谭红,张成梅,于杰,黄伟.基于TF-IDF方法融合生物医学同义词的相似度计算方法[J].贵州科学,2019,37(6):91-96.
4Jiachen Wu,Yue Wang.A Text Correlation Algorithm for Stock Market News Event Extraction[J].国际计算机前沿大会会议论文集,2021(2):55-68.
5邓矜婷.论计算机中法律规则的通用表示方法[J].数字法治,2023(3):111-128.

二级引证文献101

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
3吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
4谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
5裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
6廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：3
8王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：11
9黄梦龙.基于分词的天地图福建多源POI重复检测方法[J].地理空间信息,2018,16(2):51-53. 被引量：1
10李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：21

1王庆福,常广炎.基于TF-IDF优化算法在文本分类中的应用研究[J].电脑编程技巧与维护,2014(10):11-12. 被引量：2
2台德艺,谢飞,胡学钢.基于位置权重的文本分类[J].安徽水利水电职业技术学院学报,2008,8(1):64-66. 被引量：2
3孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014,31(7):177-181. 被引量：50
4安娜,谢福鼎,张永,刘绍海.一种基于GN算法的文本概念聚类新方法[J].计算机工程与应用,2008,44(14):142-144. 被引量：7
5金凯民,苗夺谦,段其国.一种基于隐含子类信息的粗糙集中文文本分类方法[J].计算机科学,2008,35(2):147-149. 被引量：1
6任美睿,郭龙江,李金宝.基于改进的向量空间模型的自动文本分类[J].哈尔滨商业大学学报（自然科学版）,2006,22(1):77-80. 被引量：2
7陈冬宇,王磊,张汉鹏.基于信息流的产品开发项目流程优化研究[J].计算机应用研究,2011,28(7):2531-2533. 被引量：3
8宋二伟,刘宗田,徐力斌,陈光.基于领域本体的Web信息检索实现机制研究[J].计算机科学,2007,34(5):104-106. 被引量：7
9张秋霞,谷平.文档主题提取算法VSM改进与应用[J].情报杂志,2007,26(12):17-19. 被引量：3
10刘海娟,张佳骥,陈勇.基于改进权重计算的话题跟踪[J].无线电工程,2008,38(4):21-24. 被引量：3

计算机技术与发展

2015年第8期

浏览历史

内容加载中请稍等...

基于Hadoop平台的文本相似度检测系统的研究被引量：5

参考文献14

二级参考文献76

共引文献473

同被引文献71

引证文献5

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的文本相似度检测系统的研究 被引量：5

参考文献14

二级参考文献76

共引文献473

同被引文献71

引证文献5

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的文本相似度检测系统的研究被引量：5