自然语言处理文本查重优化算法设计被引量：9

Algorithm Design of Text Duplicated-checking Based on Natural Language Processing

下载PDF

导出

摘要为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词,运用重要采样思想优化LDA(latent dirichlet allocation),模型,提出了新的训练模型ISLDA(importance sampling latent dirichlet allocation)抽取主题词汇,并采用余弦相似度计算重复率。更好地实现了文本查重算法模型的优化,对比两个模型的主题词类别、各词汇分布概率,结果表明新训练模型优化了主题模型,提高了计算模型训练准确率及测试文本的查重能力,较理想地实现了文本查重分析设计方法。 With the aim of exploring the problem of duplication in the practice report texts submitted by college students during their internship,the classification data of relevant texts was collected from college teaching management department.The Jieba word segmentation tool was applied to analyze the text information,while the Word2vec word vector conversion technology was adopted to illustrate the natural language accurate semantic analysis capabilities.Taking such three aspects into account as topic word extraction,probability distribution,and time complexity,the Python OS library was used to complete batch processing in order to remove duplication,stop words and non-Chinese word.An important sampling method was presented to optimize the LDA model,a new training model ISLDA was proposed to extract subject vocabulary,and cosine similarity was adopted to calculate the repetition rate.Thus,the optimization of the text duplicate checking algorithm model was better realized than previous works.Comparing the two models in terms of the topic word category and the distribution probability of each vocabulary of,the results show that the topic model is optimized by the new training model,the training accuracy of the calculation model is improved,and eventually the design method of text checking and analysis is ideally realized.

作者董星彤陈士宏陈淑鑫 DONG Xing-tong;CHEN Shi-hong;CHEN Shu-xin(School of Chemical and Materials Engineering, Beijing Technology and Business University, Beijing 100048, China;Department of Communication and Electronic Engineering, Qiqihar University, Qiqihar 161006, China;Department of Computer Science and Technology, Tianjin Ren'ai Collage, Tianjin 301636, China)

机构地区北京工商大学化学与材料工程学院齐齐哈尔大学通信与电子工程学院天津仁爱学院计算机科学与技术系

出处《科学技术与工程》北大核心 2022年第3期1091-1097,共7页 Science Technology and Engineering

基金国家自然科学基金(U2031142) 国家自然科学基金青年科学基金(11803013)。

关键词语义分析查重模型重要性采样文本向量化相似度计算 semantic analysis duplicated-checking model importance sampling text vectorization similarity calculation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1赵园丁.浅谈人工智能时代背景下自然语言处理技术的发展应用[J].办公自动化,2019,24(10):63-64. 被引量：6
2毛瑞彬,李霁,潘斌强,杨雯雯,朱菁,李爱文,吕华揆.基于自然语言处理的招股说明书完整性识别方法研究[J].情报理论与实践,2021,44(5):193-198. 被引量：4
3周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
4洪智勇,刘华,邓维斌,秦克云.基于粗糙集与相关向量机的文本分类新方法[J].计算机仿真,2010,27(7):183-186. 被引量：3
5胡菊香,吕学强,刘秀磊,刘克会.专利技术功效短语获取研究[J].科学技术与工程,2016,16(14):228-235. 被引量：12
6蒋东兴,郭大勇,罗念龙,刘启新.清华大学新一代数字校园建设规划与实践[J].厦门大学学报（自然科学版）,2007,46(A02):173-178. 被引量：79
7孟宪华.职教集团背景下的数字校园建设的研究与实践[J].才智,2019,0(21):163-163. 被引量：3
8李成龙,杨冬菊,韩燕波.基于分词矩阵模型的模糊匹配查重算法研究[J].计算机科学,2017,44(B11):55-60. 被引量：4
9胡婧,刘伟,马凯.基于机器学习的高血压病历文本分类[J].科学技术与工程,2019,19(33):296-301. 被引量：9
10张海涛,王丹,徐海玲,孙思阳.基于卷积神经网络的微博舆情情感分类研究[J].情报学报,2018,37(7):695-702. 被引量：38

二级参考文献165

1杰勒米·麦克莱恩,韩励豪(译),翟玉涛(译),吴紫君(译),邹莹(译),姜沅伯(校).标准文本及其对证券市场信息披露的影响[J].证券法苑,2019(3):1102-1189. 被引量：3
2孙鑫.自然语言处理中语法分析研究[J].现代图书情报技术,2004(S1):44-46. 被引量：3
3许鑫,苏新宁.新一代高校数字化校园建设[J].现代图书情报技术,2005(1):48-55. 被引量：86
4任靖,李春平.最小距离分类器的改进算法——加权最小距离分类器[J].计算机应用,2005,25(5):992-994. 被引量：30
5郭红俊,马薇.部署IPv6校园网初探[J].海淀走读大学学报,2005(2):85-87. 被引量：3
6王旭,蒋东兴,陈怀楚.大学资源计划的理论与发展[J].教育信息化,2005(11S):14-16. 被引量：27
7余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
8李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15

共引文献523

1王奎芳,吕璐成,孙文君,王翼虎,赵亚娟.基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例[J].数据分析与知识发现,2024,8(8):144-156.
2陈亮,尚玮姣,余池,牟琳,夏春姊,葛川.利用技术分类号辅助的无监督专利实体抽取方法研究[J].知识管理论坛,2024(4):422-436.
3陈清化,薛书琦,龚壮壮,曹润康.基于文本挖掘的物流服务水平评价方法[J].计算机应用,2023,43(S01):88-94. 被引量：1
4左旻.校园计算机系统的信息安全与应对措施[J].电子技术（上海）,2021,50(12):134-135.
5杨凡,薛佳奇.双向GRU和自注意力机制下微博情感倾向性分析[J].智能计算机与应用,2020(4):193-198. 被引量：3
6王欣.职教集团背景下信息化资源共建共享实践研究[J].产业与科技论坛,2020(6):243-244. 被引量：4
7邓拥军,陈国华,姜鹏,刘宏坤,任爱风.中国海洋大学数字化校园建设实践[J].中国海洋大学学报（自然科学版）,2008,38(S1):34-36. 被引量：5
8高博.高校教学评估数据中心的设计[J].内蒙古财经学院学报（综合版）,2009,7(5):32-35.
9邵正隆,彭宇,俞春.研究生支部评议系统的设计与实现[J].武汉大学学报（理学版）,2012,58(S1):327-330.
10林红,孙雅娟.大学校级信息系统规划方法的研究与实践[J].计算机科学,2012,39(S2):154-157. 被引量：1

同被引文献116

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：4
2詹悦,陈志峰.基于交叉熵函数的神经网络研究[J].休闲,2021(12):0217-0217. 被引量：1
3冯志伟.自然语言处理的历史与现状[J].中国外语,2008,5(1):14-22. 被引量：17
4卫敏,余乐安.具有最优学习率的RBF神经网络及其应用[J].管理科学学报,2012,15(4):50-57. 被引量：50
5王辉,陈泓予,刘淑芬.基于改进朴素贝叶斯算法的入侵检测系统[J].计算机科学,2014,41(4):111-115. 被引量：32
6戴云,范平志.入侵检测系统研究综述[J].计算机工程与应用,2002,38(4):17-19. 被引量：65
7陶卿,曹进德,孙德敏.基于支持向量机分类的回归方法[J].软件学报,2002,13(5):1024-1028. 被引量：46
8刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：261
9刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：993
10刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机[J].计算机工程,2016,42(4):155-159. 被引量：16

引证文献9

1汪亚东.一种基于字符对比的文本相似度计算方法[J].计算机时代,2023(6):87-91. 被引量：1
2杨宇,闫钰,申芳,谷宇恒.基于机器和深度学习的入侵检测综述[J].科学技术与工程,2023,23(18):7607-7621. 被引量：4
3曾攀,袁黎晖.基于蜜蜂知识图谱智能问答系统[J].信息技术与信息化,2023(7):108-111. 被引量：1
4赵文彬,王佳琦,吴峰,任雁,安寅生.基于图神经网络文档相似度的实体与关系层次匹配方法[J].郑州大学学报（理学版）,2023,55(6):8-14.
5程兆亮,沈雅婷,唐俊杰,王泽铭.改进过滤模型解决音变问题研究[J].电脑与电信,2023(9):5-10.
6刘文亮,吴飞,何德明,赵维伟,潘建宏.基于相异度矩阵的碎片化回复文本聚类方法[J].计算机与现代化,2024(9):56-60.
7戴研平,高晓勤,秦海霞.微课-慕课-翻转课堂立体教学模式及课程思政融入在病原生物与免疫学教学中的应用效果[J].中国当代医药,2024,31(25):150-154.
8刘旭,张艳,邓少阁,李满,张明.基于K-means算法的民航事故结构化分析[J].科学技术与工程,2024,24(30):13210-13217.
9王帅,何文春,王甫棣,赵希鹏,周远洋.大语言模型融合知识图谱与向量检索的问答系统[J].科学技术与工程,2024,24(32):13902-13910.

二级引证文献6

1陈赛飞扬,殷锋,李泽宇,王小雪.基于历史文化知识图谱的问答模型研究[J].西南民族大学学报(自然科学版),2023,49(6):679-685.
2叶青,章祎枫,沙金亮,方桦,余瑛.基于光电容积脉搏波的无创血压连续测量研究进展[J].科学技术与工程,2024,24(5):1756-1774. 被引量：1
3段宇,孙载董,陈铁山.文本深度学习向量化在操作票审核中的研究[J].电力系统装备,2024(3):11-13.
4张小奇.基于多源域偏移数据特征融合的数字化校园网络IoT入侵检测方法[J].辽东学院学报（自然科学版）,2024,31(1):40-46.
5龚颖,许文韬,赵策,王斌君.基于零信任机制的联邦学习模型[J].科学技术与工程,2024,24(19):8166-8175.
6阮春南.互联网时代计算机信息安全管理体系设计探究[J].信息与电脑,2024,36(17):142-144.

1王华军,修乃华.支持向量机损失函数分析[J].数学进展,2021,50(6):801-828. 被引量：4
2黄素叶.时空众包环境下时效均衡改进粒子群优化算法[J].山西师范大学学报（自然科学版）,2021,35(3):48-53.
3张晨阳,段国云,文春生.基于Simhash算法的文本查重系统的设计与实现[J].湖南科技学院学报,2021,42(5):51-54. 被引量：2
4通告[J].中学语文,2022(4):21-21.
5通告[J].中学语文,2022(5):17-17.
6蒋巧玲,张春青.语料库辅助的高中英语主题词汇教学手段探究[J].中小学外语教学,2021,44(19):41-47. 被引量：4
7崔振浩,李真真,张愿,司晨雨.基于大数据的ToB客户精准营销方法研究[J].网络安全技术与应用,2021(12):139-141.
8倡导原创拒绝抄袭[J].热加工工艺,2021,50(24):46-46.
9曾凯,李响,贾建梅,文继锋,王翔.基于YOLOv3-spp的缺陷检测优化模型[J].计算机系统应用,2022,31(2):213-219. 被引量：8
10请作者自行投稿[J].热加工工艺,2021,50(24):130-130.

科学技术与工程

2022年第3期

浏览历史

内容加载中请稍等...

自然语言处理文本查重优化算法设计被引量：9

参考文献15

二级参考文献165

共引文献523

同被引文献116

引证文献9

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

自然语言处理文本查重优化算法设计 被引量：9

参考文献15

二级参考文献165

共引文献523

同被引文献116

引证文献9

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

自然语言处理文本查重优化算法设计被引量：9