融合图结构与节点关联的关键词提取方法被引量：8

A Keywords Extraction Method via Graph Structure and Nodes Association

下载PDF

导出

摘要单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。 Keywords extraction is an important technique for web page retrieval,knowledge comprehension,and document classification,etc.In this paper,a novel keywords extraction method of combining graph structure with nodes association(GSNA)is proposed,which is able to locate keywords without a corpus.Firstly,the frequent closed itemset are exploited and the strong association rules are generated.Secondly,an association graph is constructed based on association rules,where the head and the body of the rules represent nodes,and an edge exists if and only if there is a strong association rule between two nodes and value of lift are adopted to represent weight.Thirdly,three node factors(i.e.graph structure,node semantics and associations)are unified under the same keyword extraction framework for random walking.Finally,a trustworthy sematic clustering algorithm is employed to avoid the semantic overlapping among terms.Three experiments conducted on the Chinese and English data sets show that GSNA is effective for keywords extraction.

作者马慧芳王双李苗李宁 MA Huifang;WANG Shuang;LI Miao;LI Ning(College of Computer Science and Engineering, Northwest Normal University,Lanzhou,Gansu 730070,China;Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology,Guilin, Guangxi 541004,China;Institute of Information Engineeringt Chinese Academy of Sciences, Beijing 100093,China)

机构地区西北师范大学计算机科学与工程学院桂林电子科技大学广西可信软件重点实验室中国科学院信息工程研究所

出处《中文信息学报》 CSCD 北大核心 2019年第9期69-78,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61762078,61802404,61363058) 广西可信软件重点实验室研究课题(kx201705)

关键词关键词提取随机游走节点属性语义信息节点关联 keywords extraction random walk node attribution semantic information node association

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1冯冲,廖纯,刘至润,黄河燕.基于词汇语义和句法依存的情感关键句识别[J].电子学报,2016,44(10):2471-2476. 被引量：7
2黄九鸣,吴泉源,张圣栋,贾焰,刘东,周斌.基于AC-Trie的在线社交网络文本流热点短语挖掘[J].电子学报,2016,44(10):2466-2470. 被引量：3
3朱亮,陆静雅,左万利.基于用户搜索行为的query-doc关联挖掘[J].自动化学报,2014,40(8):1654-1666. 被引量：6

二级参考文献35

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2Bhatia S, Majumdar D, Mitra P. Query suggestions in the absence of query logs. In: Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing, China: ACM, 2011. 795-804. 被引量：1
3Li X. Understanding the semantic structure of noun phrase queries. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics Association for Computational Linguistics. Uppsala, Sweden: ACL, 2010. 1337-1345. 被引量：1
4Mintz M, Bills S, Snow R, Jurafsky D. Distant supervision for relation extraction without labeled data. In: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2 Association for Computational Linguistics. Suntec, Singapore: ACL, 2009. 1003-1011. 被引量：1
5Peters S, Jacob Y, Denoyer L, Gallinari P. Iterative multi-label multi-relational classification algorithm for complex social networks. Social Network Analysis and Mining, 2012, 2(1): 17-29. 被引量：1
6Surdeanu M, Tibshirani J, Nallapati R, Manning C D, Center A I. Multi-instance multi-label learning for relation extraction. In: Proceedings of the 2012 Conference on Empirical Methods in Natural Language Processing and Natural Language Learning (EMNLP-CoNLL). Stroudsburg, PA, USA: Association for Computational Linguistics, 2012. 455-465. 被引量：1
7Anagnostopoulos A, Becchetti L, Castillo C, Gionis A. An optimization framework for query recommendation. In: Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2010. 161-170. 被引量：1
8Liu Y, Miao J, Zhang M, Ma S, Ru L. How do users describe their information need: query recommendation based on snippet click model. Expert Systems with Applications, 2011, 38(11): 13847-13856. 被引量：1
9Yan X H, Guo J F, Cheng X Q. Context-aware query recommendation by learning high-order relation in query logs. In: Proceedings of the 20th ACM International Conference on Information and Knowledge Management. Glasgow, UK: ACM, 2011. 2073-2076. 被引量：1
10Xiang B, Jiang D, Pei J, Sun X, Chen E H, Li H. Context-aware ranking in web search. In: Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Geneva, Switzerland Cochairs: ACM, 2010. 451-458. 被引量：1

共引文献13

1王鑫,陆静雅,王英.面向推荐的用户兴趣扩展方法[J].山东大学学报（工学版）,2017,47(2):71-79. 被引量：3
2张焕成,林正奎.词向量提取评论观点句方法研究[J].西部皮革,2017,39(10):271-273.
3王玮,苏琦,刘荫,周伟,于展鹏,穆林.基于云存储的异构海量数据搜索平台设计[J].信息技术,2017,41(6):166-169. 被引量：2
4张焕成.基于词向量的手机网评观点句提取方法研究[J].信息通信,2017,30(2):32-35.
5姜宇,张大方,刁祖龙.基于点击流的用户矩阵模型相似度个性化推荐[J].计算机工程,2018,44(1):219-225. 被引量：10
6石方夏.基于用户点击的线性回归在内容推荐中的应用研究[J].现代电子技术,2017,40(17):135-137.
7俞琰,陈磊,姜金德,赵乃瑄.基于依存句法分析的中文专利候选术语选取研究[J].图书情报工作,2019,63(18):109-118. 被引量：11
8马慧芳,李苗,童海斌,詹子俊.基于通配符模式与随机游走的关键词提取方法[J].计算机工程,2020,46(7):78-83.
9陈晓琪,谢振平,刘渊.增量采样聚类驱动的新闻事件发现[J].智能系统学报,2020,15(6):1175-1184. 被引量：1
10伏虎.多媒体网络突发事件舆情语义识别及危机响应研究[J].情报科学,2021,39(5):70-74. 被引量：1

同被引文献105

1薛福亮,刘丽芳.一种基于CRF与ATAE-LSTM的细粒度情感分析方法[J].数据分析与知识发现,2020,4(2):207-213. 被引量：9
2王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
3赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
4阚洳沂,唐雁.基于节点删除指标的关键字提取策略[J].西南师范大学学报（自然科学版）,2008,33(2):119-122. 被引量：2
5方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
6杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：15
7刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
8肖明,陈嘉勇,李国俊.基于CiteSpace研究科学知识图谱的可视化分析[J].图书情报工作,2011,55(6):91-95. 被引量：217
9李本阳,关毅,董喜双,李生.基于单层标注级联模型的篇章情感倾向分析[J].中文信息学报,2012,26(4):3-8. 被引量：10
10冯永,唐黎.视觉与标签信息的Deep Web查询页面内容提取[J].重庆大学学报（自然科学版）,2012,35(6):117-124. 被引量：1

引证文献8

1丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6
2曹义亲,盛武平,周会祥.基于TF-IDF-MP算法的新闻关键词提取研究[J].华东交通大学学报,2021,38(1):122-130. 被引量：6
3王海燕,陶皖,余玲艳,王鸣鹃.文本细粒度情感分析综述[J].河南科技学院学报（自然科学版）,2021,49(4):67-76. 被引量：6
4王晴.基于统计的多文本网站文本内容抽取算法[J].安徽电子信息职业技术学院学报,2021,20(4):6-12. 被引量：2
5张之刚,常朝稳,韩培胜,侯湘.RiskRank:一种网络风险传播分析方法[J].重庆大学学报,2021,44(9):132-138. 被引量：1
6王卫斌,陆嘉铭,周韡烨,屈志坚,姚嵘,瞿海妮.面向设备质量提升的电力设备缺陷大数据分析研究[J].电力大数据,2021,24(6):76-83. 被引量：2
7岑振宇,唐吉深.基于对抗性扰动图形神经网络的隐私攻击防御策略[J].广西大学学报（自然科学版）,2023,48(1):156-172. 被引量：2
8陆嘉铭,朱洪志,贺静,张一彦,高翔,陆慧玲,李丹戎.基于改进DBSCAN算法的电力设备坐标研究[J].电力大数据,2024,27(1):10-17.

二级引证文献25

1张淯舒.基于知识图谱的搜索引擎技术研究[J].信息技术与信息化,2020(9):29-31. 被引量：1
2陈婕卿,张锋,曾可,姜会珍.基于CiteSpace的医学自然语言处理研究热点分析[J].中国数字医学,2021,16(5):101-106. 被引量：3
3郝俊杰,高虹霓,王崴,李建栋,曹虹,宋新成.基于CBR-RBF-KG的装填车液压系统故障诊断方法研究[J].兵器装备工程学报,2021,42(11):209-214. 被引量：4
4王旎,孙晓红,吴锴,谢锋,陶光灿.基于贝叶斯网络的食品安全舆情监控探针研究[J].计算机系统应用,2022,31(1):29-36. 被引量：3
5黄立赫,石映昕.面向视频弹幕的网络舆情事件监测研究[J].情报杂志,2022,41(2):146-154. 被引量：10
6冯俊辉,刘晨,郭浩然.基于模板和规则的声明式代码生成[J].数字技术与应用,2022,40(2):151-154.
7吴玉娟,陈亚军,谢婷.基于TF-IDF和FastText的快速外卖评论情感分类研究[J].太原师范学院学报（自然科学版）,2022,21(2):51-55. 被引量：1
8张志强,王伟钧,张修军,施达.一种新闻类WORD格式文件数据抽取算法研究[J].成都大学学报（自然科学版）,2022,41(2):151-156.
9范明炜,张云华.结合显式句法依赖与分层注意力进行方面级情感分析[J].软件工程,2022,25(9):1-4.
10罗压琼,姜瑛,陈泳全.APP软件用户评论中评价对象和评价观点的匹配[J].现代电子技术,2022,45(22):126-132.

1蒋莉,孙军秀.小学英语群文阅读实践研究[J].校园英语,2019,0(36):145-146. 被引量：1
2徐学红,陆伟,杨余旺.一种改进的线性时间封闭项集挖掘算法[J].科学技术与工程,2018,18(18):241-246.
3王燕.初中语文"整本书阅读"的教学策略[J].中学生作文指导,2019,0(19):73-74.
4尚通平.行业发展最怕的是不温不火[J].现代家电,2019,0(17):49-50.
5徐璟.挖掘文本资源，培养英语文化品格[J].陕西教育（教学）,2019,0(11):71-71. 被引量：2
6赖婧.如何实施高中英语阅读教学[J].语数外学习（高中版）（上）,2019,0(9):72-72.
7朱文立,张利,杨明,王勃,赵元春.考虑日周期性影响的光伏功率爬坡事件非精确概率预测[J].电力系统自动化,2019,43(20):31-38. 被引量：11
8唐士惠,辛燕,丁宁宁.医院灾害脆弱性数据分析应用于应急管理研究[J].医学信息（医学与计算机应用）,2016,29(35):72-74. 被引量：5
9刘艳.语文教师上课三部曲[J].北京教育教学研究,2019,40(4):38-40.
10徐成.上海股票市场有效性的实证检验[J].经济与社会发展研究,2019,0(11):0077-0077.

中文信息学报

2019年第9期

浏览历史

内容加载中请稍等...

融合图结构与节点关联的关键词提取方法被引量：8

参考文献3

二级参考文献35

共引文献13

同被引文献105

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

融合图结构与节点关联的关键词提取方法 被引量：8

参考文献3

二级参考文献35

共引文献13

同被引文献105

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

融合图结构与节点关联的关键词提取方法被引量：8