摘要
[研究目的]传统主题建模忽略了词汇之间的关联情况,本研究提出一种基于语义距离的主题相似度计算方法,从而改进主题边界模糊的问题。[研究方法]基于文献题录数据,将生命科学领域文献按出版时间离散到不同年份,运用LDA主题模型聚类不同年份下的主题,分析主题强度和内容变化,在语义距离的基础上结合MeSH本体库,对不同年份下的主题进行相似度计算和关联,并揭示生命科学领域知识演化路径。[研究结论]考虑语义距离的主题关联方法对弱关联的主题识别具有一定优势,而不同主题的演化路径能够有效检测和跟踪主题,验证了本研究所提方法的科学性和可行性。
[Research purpose]Traditional topic modeling ignores the association between words.This paper proposes a topic similarity calculation method based on semantic distance to improve the problem of fuzzy topic boundary.[Research method]Using the data of bibliographic,the literature in life science is dispersed according to the publication time.LDA topic model is constructed to cluster topics in different years,and then the topic intensity and content changes are analyzed.Based on semantic distance,the paper completes the topic similarity calculation and association in different years combined with MeSH ontology library,it also reveals the evolution path of knowledge in the life science field.[Research conclusion]The topic association method considering semantic distance has some advantages in identifying weak correlated topics.The evolution paths of different topics can effectively detect and track topics,which verifies the scientificity and feasibility of the method proposed.
作者
张瑞
何禄鑫
杨艳妮
Zhang Rui;He Luxin;Yang Yanni(School of Economics and Management,Hubei University of Technology,Wuhan 430064;College of Art&Communication,China Three Gorges University,Yichang 443002)
出处
《情报杂志》
CSSCI
北大核心
2022年第10期121-129,共9页
Journal of Intelligence
基金
国家社会科学基金青年项目“网络知识社区用户交互内容的组织与传播研究”(编号:18CTQ033)
湖北省教育厅哲学社会科学研究青年项目“从科学到社会:知识流动模式及对社会认知的影响研究”(编号:21Q084)。
关键词
语义距离
科学知识
主题建模
主题关联
主题演化
LDA
semantic distance
scientific knowledge
topic modeling
topic association
topic evolution
LDA