-
题名基于网页布局相似度的Web论坛数据抽取
被引量:9
- 1
-
-
作者
王允
李弼程
林琛
-
机构
信息工程大学信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第2期68-75,共8页
-
基金
国家863计划资助项目(2007AA01Z439)
信息工程大学学位论文创新基金资助项目(BSLWCX200802)
-
文摘
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。
-
关键词
计算机应用
中文信息处理
web论坛
数据抽取
相似度
-
Keywords
computer application
Chinese information processing
web forum
data extraction
similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向Web论坛的网络信息获取技术及系统实现
被引量:7
- 2
-
-
作者
彭冬
蔡皖东
-
机构
西北工业大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2011年第1期157-160,共4页
-
基金
国家863计划资助项目(2009AA01Z424)
2009届西北工业大学本科毕业设计重点扶持项目
-
文摘
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。
-
关键词
网络爬虫
web论坛
正文提取
主题相关度
-
Keywords
web spider
web forum
context extracting
subject relevant
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于动态主题建模的Web论坛文档摘要
被引量:8
- 3
-
-
作者
任昭春
马军
陈竹敏
-
机构
山东大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2359-2367,共9页
-
基金
国家自然科学基金项目(60970047
61103151
+1 种基金
61173068)
山东省自然科学基金项目(ZR2012FM037)
-
文摘
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法.
-
关键词
web论坛
论坛文档摘要
主题建模
Gibbs
EM采样
文档摘要
-
Keywords
web forum
thread summarization
topic modeling
Gibbs EM sampling
documentsummarization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Web论坛数据源增量爬虫的研究
被引量:5
- 4
-
-
作者
蔡欣宝
郭若飞
赵朋朋
崔志明
-
机构
苏州大学智能信息处理及应用研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第9期285-287,共3页
-
基金
国家自然科学基金资助项目(60673092)
2008年江苏省重大科技支撑与自主创新基金资助项目(BE2008044)
-
文摘
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
-
关键词
web论坛
增量爬虫
站点地图
泊松模型
-
Keywords
web forum
incremental crawler
site map
Poisson model
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于LDA的Web论坛低质量回帖检测方法
被引量:4
- 5
-
-
作者
韩晓晖
马军
邵海敏
薛冉
-
机构
山东大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第9期1937-1946,共10页
-
基金
国家自然科学基金项目(60970047
61103151
+2 种基金
61173068)
山东省自然科学基金项目(Y2008G19)
山东大学自主创新基金项目(11150070613165)
-
文摘
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.
-
关键词
web论坛
主题模型
主题分布
低质量回帖
语义特征
分类
-
Keywords
web forum
topic model
topic distribution
low-quality post
semantic feature
classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Nutch的Web论坛分块采集系统
被引量:1
- 6
-
-
作者
程杜新
傅魁
-
机构
武汉大学信息管理学院
武汉理工大学经济学院
-
出处
《图书馆学研究》
CSSCI
2017年第7期56-60,共5页
-
文摘
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。
-
关键词
NUTCH
web论坛
信息采集
分块解析
-
Keywords
Nutch web forum harvest system block analysis
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名WEB论坛完全使用手册
- 7
-
-
作者
江雁
-
出处
《电脑技术——Hello-IT》
2000年第5期62-63,共2页
-
-
关键词
web论坛
INTERNET网
BBS站
浏览器
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DOM树的通用论坛抽取技术
被引量:1
- 8
-
-
作者
邓垦
胡勇
-
机构
四川大学电子信息学院
-
出处
《网络安全技术与应用》
2015年第1期20-20,共1页
-
文摘
web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提出了一种基于DOM树的通用论坛抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层中的主题信息。该方法无需人工干预,能够实现完全的自动化抽取。实验结果证明,该方法在bbs论坛网页抽取中具有较高的准确率和通用性。
-
关键词
web论坛
抽取
DOM
自动化
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-