-
题名主题模型LDA的多文档自动文摘
被引量:23
- 1
-
-
作者
杨潇
马军
杨同峰
杜言琦
邵海敏
-
机构
山东经济学院信息管理学院
山东大学计算机科学与技术学院
-
出处
《智能系统学报》
2010年第2期169-176,共8页
-
基金
国家自然科学基金资助项目(60970047)
山东省自然科学基金资助项目(Y2008G19)
+1 种基金
山东省科技计划资助项目(2007GG10001002
2008GG10001026)
-
文摘
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
-
关键词
多文档自动文摘
句子分值计算
主题模型
LDA
主题数目
-
Keywords
multi-document summarization
sentence scoring
topic model
latent dirichlet allocation
number of topics
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于版块的论坛增量搜集策略
被引量:2
- 2
-
-
作者
杜言琦
马军
-
机构
山东大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期62-68,共7页
-
基金
国家自然科学基金资助项目(60970047)
山东省科技攻关资助项目(2007GG10001002
+1 种基金
2008GG10001026)
山东省自然科学基金资助项目(Y2008G19)
-
文摘
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。
-
关键词
计算机应用
中文信息处理
增量搜集
论坛爬虫
延迟
-
Keywords
computer application
Chinese information processing
incremental crawl
forum crawler
delay
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-