-
题名基于主题N元语法模型的科技报告主题分析
被引量:2
- 1
-
-
作者
安欣
徐硕
-
机构
北京林业大学经济与管理学院
北京工业大学经济与管理学院北京现代制造业发展研究基地
-
出处
《农业图书情报》
2019年第6期21-30,共10页
-
基金
广东省自然科学基金项目“面向生物医药领域的前沿技术预判方法论与模型构建研究”(项目编号:2018A030313695)
-
文摘
作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识产权等方面,在深度数据挖掘方面的研究工作相对较少。笔者尝试利用主题N元语法模型对科技报告进行领域深层主题分析,为了确定特定领域科技报告的主题数目,笔者借助动态规划的思想针对主题N元语法模型提出了困惑度的有效计算方法。最后,以肿瘤领域1344条科技报告为实验数据,揭示了以“分子机制/肿瘤细胞”和“系统生物学/关键方法”为代表的70个主题,验证了利用主题N元语法模型揭示科技报告领域深层主题的可行性和有效性。
-
关键词
科技报告
主题n元语法模型
主题分析
困惑度
热力图
-
Keywords
scientific and technical reports
topical n-grams model
topical analysis
perplexity
heat map
-
分类号
G322
[文化科学]
-