期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分块的网页主题文本抽取 被引量:5
1
作者 任玉 樊勇 郑家恒 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期141-144,共4页
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本... 根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。 展开更多
关键词 HTML标签 网页分块 内容特征 信息抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部