摘要
【目的】引入深度学习词嵌入表示技术,帮助更好地从医学领域科技报告中发现主题之间的隐含关联,从而为进一步丰富和完善医学领域主题演化分析方法提供参考。【方法】利用基于单词和主题进行联合学习的主题词嵌入表示模型TWE(Topical Word Embeddings),以肿瘤学领域科技报告为数据源,对主题之间的潜在语义关联信息进行计算并用于主题演化分析。【结果】实验结果表明,在词嵌入表示主题演化中,展现出2006年和2007的部分主题分裂关联关系,以及2011年和2012年的部分主题融合关联关系。而这些TWE分裂和融合关联结果在传统LDA主题演化中都没有完全体现出来。传统LDA演化和词嵌入表示主题演化的最大的不同体现在2009年和2010年中,两者得到的相关关系是完全不同的。【局限】一方面,受到中文领域科技报告数据采集的限制,样本量规模有限;另一方面,未针对其他医学领域研究主题对所提方法进行进一步验证。【结论】基于主题词嵌入表示模型的主题挖掘及演化分析,能较好突出深度学习语义表示对主题关联的重要作用,并可在医学领域文本特别是科技报告中提供更好的主题演化分析结果。
[Objective] The paper uses word embedding representation technology to better discover the implicit associations among topics of the medical science and technology reports, aiming to improve the analysis methods for medical topic evolution. [Methods] We adopted the TWE(Topical Word Embeddings) model to analyze the potential semantic association among topics of oncology studies, as well as their evolution. [Results] We found the splitting correlation of topics in 2006 and 2007, as well as the merging correlation of topics in 2011 and 2012.However, these TWE correlation results were not fully reflected in the topic evolution of generated by traditional LDA method. In 2009 and 2010, the results yielded by traditional LDA and word embedding were completely different. [Limitations] Our sample size is limited because we only collected Chinese reports. More research is needed to examine the proposed method with other medical research topics. [Conclusions] The topic mining and evolution analysis based on the word embeddings representation model could highlight the impacts of deep learning on topic association. It provides better results for topic evolution analysis of medical Sci-Tech reports.
作者
沈思
李沁宇
叶媛
孙豪
叶文豪
Shen Si;Li Qinyu;Ye Yuan;Sun Hao;Ye Wenhao(School of Economics and Management,Nanjing University of Science&Technology,Nanjing 210094,China;School of Information Management,Nanjing University,Nanjing 210023,China)
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2021年第3期35-44,共10页
Data Analysis and Knowledge Discovery
基金
江苏省自然科学基金青年项目(项目编号:BK20190450)
国家自然科学基金面上项目(项目编号:71974094)
国家社会科学基金后期资助项目(项目编号:19FTQB015)的研究成果之一。
关键词
词嵌入表示
主题演化
科技报告
医学领域
Word Embeddings Representation
Topic Evolution
Sci-Tech Report
Medical Field