-
题名融合语义特征的无监督关键词提取算法
- 1
-
-
作者
赵长路
刘军
胡佳
胡宝权
-
机构
兰州理工大学机电工程学院
哈尔滨商业大学计算机与信息工程学院
-
出处
《计算机与数字工程》
2024年第7期1909-1915,1926,共8页
-
基金
国家自然科学基金项目(编号:71861025)
科技部国家重点研发计划(编号:2018YFB1703105)
兰州理工大学红柳一流学科建设项目资助。
-
文摘
针对传统的词图模型的关键词提取算法缺乏文本语义理解的不足,提出一种融合语义特征的无监督关键词提取算法,该方法结合词嵌入技术与词图模型的思想,将文本语义信息和语序信息同时融入到传统的词图模型算法中。首先利用Word2vec和Doc2vec模型分别对词和文本进行向量表征,获取文本的语序信息,然后通过词向量计算出候选词与文本之间的语义相似度,进而改进TextRank算法,重新对候选关键词之间的边权值和初始值进行分配,并构建对应的重启概率矩阵和转移概率矩阵用于词图模型迭代计算候选词的分值以及关键词的提取。实验结果表明,有效地融合文本的语义信息和语序信息能够提升关键词提取的准确性。
-
关键词
提取
语义信息
语序信息
向量表征
TextRank算法
-
Keywords
keyword extraction
semantic information
word information
vector representation
TextRank algorithm
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-