期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于网页布局相似度的Web论坛数据抽取 被引量:9
1
作者 王允 李弼程 林琛 《中文信息学报》 CSCD 北大核心 2010年第2期68-75,共8页
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低... Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 展开更多
关键词 计算机应用 中文信息处理 web论坛 数据抽取 相似度
下载PDF
面向Web论坛的网络信息获取技术及系统实现 被引量:7
2
作者 彭冬 蔡皖东 《计算机工程与科学》 CSCD 北大核心 2011年第1期157-160,共4页
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,... 网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。 展开更多
关键词 网络爬虫 web论坛 正文提取 主题相关度
下载PDF
基于动态主题建模的Web论坛文档摘要 被引量:8
3
作者 任昭春 马军 陈竹敏 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2359-2367,共9页
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖... 针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法. 展开更多
关键词 web论坛 论坛文档摘要 主题建模 Gibbs EM采样 文档摘要
下载PDF
Web论坛数据源增量爬虫的研究 被引量:5
4
作者 蔡欣宝 郭若飞 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第9期285-287,共3页
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
关键词 web论坛 增量爬虫 站点地图 泊松模型
下载PDF
一种基于LDA的Web论坛低质量回帖检测方法 被引量:4
5
作者 韩晓晖 马军 +1 位作者 邵海敏 薛冉 《计算机研究与发展》 EI CSCD 北大核心 2012年第9期1937-1946,共10页
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比... 为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法. 展开更多
关键词 web论坛 主题模型 主题分布 低质量回帖 语义特征 分类
下载PDF
基于Nutch的Web论坛分块采集系统 被引量:1
6
作者 程杜新 傅魁 《图书馆学研究》 CSSCI 2017年第7期56-60,共5页
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块... 随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。 展开更多
关键词 NUTCH web论坛 信息采集 分块解析
原文传递
WEB论坛完全使用手册
7
作者 江雁 《电脑技术——Hello-IT》 2000年第5期62-63,共2页
关键词 web论坛 INTERNET网 BBS站 浏览器
下载PDF
基于DOM树的通用论坛抽取技术 被引量:1
8
作者 邓垦 胡勇 《网络安全技术与应用》 2015年第1期20-20,共1页
web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提出了一种基于DOM树的通用论坛抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层中的主题信息。该方法无需人工干预,能够实现完全的自动化抽取。实验结果证明,... web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提出了一种基于DOM树的通用论坛抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层中的主题信息。该方法无需人工干预,能够实现完全的自动化抽取。实验结果证明,该方法在bbs论坛网页抽取中具有较高的准确率和通用性。 展开更多
关键词 web论坛 抽取 DOM 自动化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部