基于分词矩阵模型的模糊匹配查重算法研究被引量：4

Research on Fuzzy Matching Duplicate Checking Algorithm Based on Matrix Model of Word Segmentation

下载PDF

导出

摘要针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。 Aiming at the need of Chinese text duplicate checking, based on the result of word segmentation, we conver-ted target text and sample text into matrix model of word segmentation, then scanned and analyzed matrix to get the re-sult. Therefore an algorithm of duplicate checking was developed, and the usefulness of the method was demonstrated by practical examples.

作者李成龙杨冬菊韩燕波

机构地区大规模流数据集成与分析技术北京市重点实验室北方工业大学云计算研究中心

出处《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页 Computer Science

基金国家自然科学基金面上项目(61672042) 支持流式大数据实时联动的数据服务模型及方法研究资助

关键词相似度分词矩阵模型模糊匹配查重算法 Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：46
2毛艺帆,张多林,王路.基于改进余弦相似度的证据间定向冲突度量方法[J].系统工程与电子技术,2016,38(11):2567-2571. 被引量：6
3王立峰,汪洋,郭虓,赵晨,李昊.Chebyshev局部配点法在轨迹优化中的应用[J].哈尔滨工业大学学报,2013,45(5):95-100. 被引量：4
4谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
5宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
6张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
7于永彦.基于Jaccard距离与概念聚类的多模型估计[J].计算机工程,2012,38(10):22-26. 被引量：6
8任靖,李春平.最小距离分类器的改进算法——加权最小距离分类器[J].计算机应用,2005,25(5):992-994. 被引量：30
9柯佳佳,胡建中.基于Manhattan距离与随机邻域嵌入的故障特征提取算法[J].计算机应用研究,2015,32(10):2992-2995. 被引量：8
10范洪博,姚念民.一种高速精确单模式串匹配算法[J].计算机研究与发展,2009,46(8):1341-1348. 被引量：14

二级参考文献186

1雍恩米,陈磊,唐国金.飞行器轨迹优化数值方法综述[J].宇航学报,2008,29(2):397-406. 被引量：125
2彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):159-161. 被引量：8
5瞿连政,罗家融,魏沛杰,冯海涛.MDSplus在HT-7Tokamak聚变实验数据系统中的应用[J].计算机工程,2006,32(6):64-66. 被引量：6
6陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
8毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
9郭华伟,施文康,邓勇,陈智军.证据冲突:丢弃,发现或化解?[J].系统工程与电子技术,2007,29(6):890-898. 被引量：55
10王华,罗家融,瞿连政,魏沛杰.HT-7超导托卡马克总控数据发布系统研究[J].计算机工程,2007,33(6):236-238. 被引量：1

共引文献496

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
6李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
7李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
8张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
9孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
10王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1

同被引文献32

1赵园丁.浅谈人工智能时代背景下自然语言处理技术的发展应用[J].办公自动化,2019,24(10):63-64. 被引量：6
2蒋东兴,郭大勇,罗念龙,刘启新.清华大学新一代数字校园建设规划与实践[J].厦门大学学报（自然科学版）,2007,46(A02):173-178. 被引量：79
3石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报,2009,35(12):1586-1592. 被引量：34
4洪智勇,刘华,邓维斌,秦克云.基于粗糙集与相关向量机的文本分类新方法[J].计算机仿真,2010,27(7):183-186. 被引量：3
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：223
6徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：238
7方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
8杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6
9周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
10胡菊香,吕学强,刘秀磊,刘克会.专利技术功效短语获取研究[J].科学技术与工程,2016,16(14):228-235. 被引量：12

引证文献4

1赵晓平,马文,刘雪萍,陈达.一种面向科技项目文本的相似度度量方法[J].电子技术应用,2020,46(5):31-34. 被引量：3
2焦文,魏海燕,石英,鲁萱萱.基于行业词库预训练的科技项目查重研究[J].科学与信息化,2020(27):170-171.
3田雄.模糊匹配查重算法在涂装设备备件物料编码管理中的应用[J].现代涂料与涂装,2021,24(3):33-36. 被引量：1
4董星彤,陈士宏,陈淑鑫.自然语言处理文本查重优化算法设计[J].科学技术与工程,2022,22(3):1091-1097. 被引量：9

二级引证文献13

1陈小飞,潘运平.基于模糊匹配算法的ERP系统物料编码管理研究[J].数字制造科学,2023(4):321-324. 被引量：1
2季曹婷,马伟锋,楼姣,马来宾.融合多特征TFIDF文本分析的汽车造型需求提取方法[J].电子技术应用,2021,47(2):16-19. 被引量：2
3李善青,安淑荻,邢晓昭.一种基于关联数据的科技项目查重系统[J].计算机与数字工程,2022,50(5):959-963.
4汪亚东.一种基于字符对比的文本相似度计算方法[J].计算机时代,2023(6):87-91. 被引量：1
5杨宇,闫钰,申芳,谷宇恒.基于机器和深度学习的入侵检测综述[J].科学技术与工程,2023,23(18):7607-7621. 被引量：4
6曾攀,袁黎晖.基于蜜蜂知识图谱智能问答系统[J].信息技术与信息化,2023(7):108-111. 被引量：1
7赵文彬,王佳琦,吴峰,任雁,安寅生.基于图神经网络文档相似度的实体与关系层次匹配方法[J].郑州大学学报（理学版）,2023,55(6):8-14.
8程兆亮,沈雅婷,唐俊杰,王泽铭.改进过滤模型解决音变问题研究[J].电脑与电信,2023(9):5-10.
9杨政,方正云,李天骄,李丽敏.基于分层深度语义的科研项目文本相似度度量方法[J].计算机与数字工程,2024,52(3):795-801. 被引量：1
10刘文亮,吴飞,何德明,赵维伟,潘建宏.基于相异度矩阵的碎片化回复文本聚类方法[J].计算机与现代化,2024(9):56-60.

1高静.俄语常用词[J].外语学刊,1978(1):13-22.
2吴礼权.《经传释词》之“因声求义”初探[J].古籍研究,1996(1):70-78.
3张海宁,周忠宁,冯佳男,祁忠,杨毅.基于多源数据及模糊匹配的安稳运行状态智能巡检系统[J].电力工程技术,2017,36(6):96-99. 被引量：10
4费扬,杜庆治.基于matlab的文本处理系统的设计与实现[J].软件,2017,38(8):226-229. 被引量：1
5帕丽旦·木合塔尔,热依曼·吐尔逊,吾守尔·斯拉木,买买提阿依甫.维吾尔文本转换国际音标系统设计与实现[J].信息通信,2017,0(5):97-99. 被引量：2
6徐江红,赵婉芳,赵静雅.基于潜在因子算法的课程推荐系统研究[J].微处理机,2017,38(5):40-43. 被引量：2
7赵宇.Agent理论在舰船机电设备协同控制中的应用[J].舰船科学技术,2017,39(20):79-81. 被引量：2
8李岩.《非常完美》微博宣传效果分析[J].现代商业,2017(9):21-22. 被引量：1
9田静,徐铂,苏新春.“有+名”类词词性标注的分歧、成因及判定方案——兼谈“有+名”类形容词的释义[J].语文研究,2017(4):42-48.
10章莹.功能翻译理论关照下的旅游文本翻译策略新探——以《滕王阁简介》英译为例[J].吉林农业科技学院学报,2017,26(3):84-87.

计算机科学

2017年第B11期

浏览历史

内容加载中请稍等...

基于分词矩阵模型的模糊匹配查重算法研究被引量：4

参考文献15

二级参考文献186

共引文献496

同被引文献32

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于分词矩阵模型的模糊匹配查重算法研究 被引量：4

参考文献15

二级参考文献186

共引文献496

同被引文献32

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于分词矩阵模型的模糊匹配查重算法研究被引量：4