改进的关键词提取算法研究被引量：8

Study on an Improved Keyword Extraction Algorithm

导出

摘要【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。 [Purposes]Aiming at the influence of word topic and word similarity on keyword extraction,an improved TextRank keyword extraction method is proposed.[Methods]First,by using Latent Dirichlet Allocation(Latent Dirichlet Allocation,LDA)word theme topic influence model to calculate the document model.Secondly,by employing FastText to generate word vectors and calculate word similarity matrices.Finally,by integrating the weight of word theme influence and word similarity influence to optimize the initial weight of vocabulary node in TextRank,iterative operation and keyword extraction of word graph model.[Findings]Experiments show that the extraction result of the improved method is better than the traditional method.[Conclusions]It is proved that the global influence of word topic and the local influence of word similarity can effectively improve the performance of TextRank algorithm in extracting keywords.

作者王涛李明 WANG Tao;LI Ming(School of Computer and Information Sciences,Chongqing Normal University,Chongqing 401331,China)

机构地区重庆师范大学计算机与信息科学学院

出处《重庆师范大学学报（自然科学版）》 CAS 北大核心 2019年第3期98-104,共7页 Journal of Chongqing Normal University:Natural Science

基金重庆市教育委员会教改项目(No.092055) 重庆市教育委员会科技项目(No.kj098820)

关键词词向量 TextRank 图模型 LDA word vector TextRank graph model LDA

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
2夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
3阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
4刘啸剑,谢飞.结合主题分布与统计特征的关键词抽取方法[J].计算机工程,2017,34(7):217-222. 被引量：8
5牛萍,黄德根.TF-IDF与规则相结合的中文关键词自动抽取研究[J].小型微型计算机系统,2016,37(4):711-715. 被引量：35
6刘啸剑,谢飞,吴信东.基于图和LDA主题模型的关键词抽取算法[J].情报学报,2016,35(6):664-672. 被引量：38
7方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
8LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
9黄磊,伍雁鹏,朱群峰.关键词自动提取方法的研究与改进[J].计算机科学,2014,41(6):204-207. 被引量：22
10柳林青,余瀚,费宁,陈春玲.一种基于TextRank的单文本关键字提取算法[J].计算机应用研究,2018,35(3):705-710. 被引量：20

二级参考文献97

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
6刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
7Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction//Proc. DL '99. 1999:254-256 被引量：1
8Turney P D. Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data. Technical Report ERB-1096. National Research Council Canada, 2002 被引量：1
9Fellbaum C. Wordnet.. An Electronic Lexical Database. Cambridge: MIT Press, 1998 被引量：1
10Medelyan O, Witten I H. Thesaurus Based Automatic Keyphrase Indexing//Proc. of the Joint Conference on Digital Libraries 2006. Chapel Hill, NC, USA, 2006 : 296-297 被引量：1

共引文献277

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2Shuang Yang,Yan Tang.News Topic Detection Based on Capsule Semantic Graph[J].Big Data Mining and Analytics,2022,5(2):98-109. 被引量：2
3尹倩,胡学钢,谢飞,吴信东.基于密度聚类模式的中文新闻网页关键词提取[J].广西师范大学学报（自然科学版）,2009,27(1):201-204. 被引量：2
4张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
5邓箴,包宏.改进的关键词抽取方法研究[J].计算机工程与设计,2009,30(20):4677-4680. 被引量：4
6王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.
7胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能,2010,23(1):45-51. 被引量：22
8张荣荣,毛宁,陈庆新.面向Internet的模具知识本体描述方法[J].计算机应用,2010,30(A01):44-46. 被引量：1
9管瑞霞,陆蓓.TFLD:一种中文文本关键词自动提取方法[J].机电工程,2010,27(9):123-126. 被引量：4
10石爱萍.一种基于语义距离的关键词获取方法[J].计算机与现代化,2010(12):18-20.

同被引文献110

1王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
2赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
3阚洳沂,唐雁.基于节点删除指标的关键字提取策略[J].西南师范大学学报（自然科学版）,2008,33(2):119-122. 被引量：2
4方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
5杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：15
6刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
7石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
8李荣杰,蒋兴浩,孙锬锋.一种基于音频词袋的暴力视频分类方法[J].上海交通大学学报,2011,45(2):214-218. 被引量：4
9肖明,陈嘉勇,李国俊.基于CiteSpace研究科学知识图谱的可视化分析[J].图书情报工作,2011,55(6):91-95. 被引量：217
10李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8

引证文献8

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6
3洛桑嘎登,仁增多杰,索南尖措,才让叁智,布加.藏文问句分类及关键词提取[J].电子技术与软件工程,2020(6):126-127. 被引量：3
4张亚娜,高子婷,胡溢,杨成.融媒体新闻生产中的中文评论关键词提取[J].人工智能,2020(2):57-66. 被引量：4
5陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：14
6白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
7裴卉宁,刘鑫宇,黄雪芹,谭昭芸,孙海波,白仲航.面向云服务平台的用户偏好产品属性动态获取方法[J].计算机集成制造系统,2023,29(11):3774-3785. 被引量：1
8赵越,郝琨,时彩云,解胜震,王之琼,信俊昌.跨模LDA融合的多模态数据主题分析方法[J].控制与决策,2024,39(4):1325-1332.

二级引证文献27

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2
2靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
3刘闯,徐国柱,郑继旺.海洛因稽延性戒断症状评定量表的修订[J].中国药物依赖性杂志,2000,9(2):132-135. 被引量：71
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5郑丽敏,齐珊珊,田立军,杨璐.面向食品安全事件新闻文本的实体关系抽取研究[J].农业机械学报,2020,51(7):244-253. 被引量：16
6张淯舒.基于知识图谱的搜索引擎技术研究[J].信息技术与信息化,2020(9):29-31. 被引量：1
7马达.融媒体时代电视制作技术的创新与发展[J].中国传媒科技,2021(2):57-59. 被引量：6
8白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
9王军.基于计算机网络的无线网络异常信息流过滤方法[J].长江信息通信,2021(3):77-79. 被引量：2
10陈婕卿,张锋,曾可,姜会珍.基于CiteSpace的医学自然语言处理研究热点分析[J].中国数字医学,2021,16(5):101-106. 被引量：3

1谢万里,李宏志,周辉,尹绍武.基于迁移学习与卷积神经网络的鱼濒死预警系统研究[J].中国农机化学报,2019,40(2):186-192. 被引量：9
2徐立.基于加权TextRank的文本关键词提取方法[J].计算机科学,2019,46(B06):142-145. 被引量：23
3刘璇,汪林威,李嘉,张朋柱.科研合作网络形成机理——基于随机指数图模型的分析[J].系统管理学报,2019,28(3):520-527. 被引量：20
4冯勇,屈渤浩,徐红艳,王嵘冰,张永刚.融合TF-IDF和LDA的中文FastText短文本分类方法[J].应用科学学报,2019,37(3):378-388. 被引量：30
5艾楚涵,熊新,吴建德.基于LDA主题模型的专利文本分析应用研究[J].科技和产业,2019,19(3):77-82. 被引量：5
6崔春生,王怡,李群.基于博弈论指标综合赋权的物流服务绩效评价[J].数学的实践与认识,2019,49(2):110-118. 被引量：11
7张晓琴,安晓丹,曹付元.基于谱聚类的二分网络社区发现算法[J].计算机科学,2019,46(4):216-221. 被引量：8
8董爽,汪秋菊.基于LDA的游客感知维度识别:研究框架与实证研究——以国家矿山公园为例[J].北京联合大学学报（人文社会科学版）,2019,17(2):42-49. 被引量：13
9孙学诚,陈前,唐家骏,石小川.大数据背景下的恐怖主义信息传播途径分析[J].吉林大学学报（信息科学版）,2019,37(1):88-95. 被引量：2
10王斌,郭剑毅,线岩团,王红斌,余正涛.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32(2):133-143. 被引量：10

重庆师范大学学报（自然科学版）

2019年第3期

浏览历史

内容加载中请稍等...

改进的关键词提取算法研究被引量：8

参考文献11

二级参考文献97

共引文献277

同被引文献110

引证文献8

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

改进的关键词提取算法研究 被引量：8

参考文献11

二级参考文献97

共引文献277

同被引文献110

引证文献8

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

改进的关键词提取算法研究被引量：8