-
题名主题模型LDA的多文档自动文摘
被引量:23
- 1
-
-
作者
杨潇
马军
杨同峰
杜言琦
邵海敏
-
机构
山东经济学院信息管理学院
山东大学计算机科学与技术学院
-
出处
《智能系统学报》
2010年第2期169-176,共8页
-
基金
国家自然科学基金资助项目(60970047)
山东省自然科学基金资助项目(Y2008G19)
+1 种基金
山东省科技计划资助项目(2007GG10001002
2008GG10001026)
-
文摘
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
-
关键词
多文档自动文摘
句子分值计算
主题模型
LDA
主题数目
-
Keywords
multi-document summarization
sentence scoring
topic model
latent dirichlet allocation
number of topics
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的LDA文档主题模型的实现
被引量:1
- 2
-
-
作者
张腾岳
-
机构
延安大学数学与计算机科学学院
-
出处
《延安大学学报(自然科学版)》
2019年第4期33-37,共5页
-
文摘
LDA模型是一种重要的文档主题生成模型,在描述经典算法思想的基础上,提出一种改进的算法,详细描述了改进算法的实现步骤以及实现过程中需要注意的问题。改进算法使用TF-IDF值代替经典算法词语矢量矩阵中的词频,使用gensim工具包进行仿真实现,从迭代次数、主题数目的不同对模型效果的影响进行研究,得到模型最优的参数组合,改进的算法在性能上由于经典算法,具有一定的应用价值。
-
关键词
文档主题模型
TF-IDF
模型评价
迭代次数
主题数目
-
Keywords
dcoument topic model
TF-IDF
model evaluation
iteration times
number of topics
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名我国科学基金同行评议研究——相关文献分析
被引量:2
- 3
-
-
作者
张改珍
-
机构
清华大学社会科学学院
-
出处
《中国科学基金》
CSSCI
CSCD
北大核心
2013年第4期214-217,221,共5页
-
基金
中国博士后科学基金项目"美国科学基金会同行评议标准的演变过程
动因及启示"(2013M530657)
-
文摘
以我国科学基金同行评议研究为主题,通过对中国知网中的期刊文献、相关学位论文和专著进行数量及研究主题的统计、分析,认为随着时间的推移,研究论文和著作的数量、微观深度研究和宏观研究都呈逐渐增多趋势,但后两者占研究总量比例较小,说明研究深入程度不够。建议以中国科学基金同行评议的实践和国内外该主题研究成果为基础,依靠核心作者群,加强微观深度研究和宏观研究,并举例说明国外的优秀宏观研究进路。
-
关键词
科学基金
同行评议
文献数量与研究主题
微观深度研究
宏观研究
-
Keywords
peer-review, natural science foundation, number and topics of studies, micro-depth research,macro research
-
分类号
G322
[文化科学]
-