-
题名基于改进TextRank的科技文本关键词抽取方法
- 1
-
-
作者
杨冬菊
胡成富
-
机构
北方工业大学信息学院
大规模流数据集成与分析技术北京市重点实验室(北方工业大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第6期1720-1726,共7页
-
基金
广州市科技计划项目(202206030009)。
-
文摘
针对科技文本关键词抽取任务中抽取出现次数少但能较好表达文本主旨的词语效果差的问题,提出一种基于改进TextRank的关键词抽取方法。首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过迭代计算得到词语的初始得分;然后,利用K-Core(K-Core decomposition)算法挖掘KCore子图得到词语的层级特征,利用平均信息熵特征衡量词语的主题表征能力;最后,在词语初始得分的基础上融合层级特征和平均信息熵特征,从而确定关键词。实验结果表明,在公开数据集上,与TextRank方法和OTextRank(Optimized TextRank)方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了6.5和3.3个百分点;在科技服务项目数据集上,与TextRank方法和OTextRank方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了7.4和3.2个百分点。实验结果验证了所提方法抽取出现频率低但较好表达文本主旨关键词的有效性。
-
关键词
科技文本
关键词抽取
TextRank
k-core图
平均信息熵
-
Keywords
scientific text
keyword extraction
TextRank
k-core(k-core decomposition)diagram
average information entropy
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-