期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于分块的网页主题文本抽取
被引量:
5
1
作者
任玉
樊勇
郑家恒
《广西师范大学学报(自然科学版)》
CAS
北大核心
2009年第1期141-144,共4页
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本...
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。
展开更多
关键词
HTML标签
网页分块
内容特征
信息抽取
下载PDF
职称材料
题名
基于分块的网页主题文本抽取
被引量:
5
1
作者
任玉
樊勇
郑家恒
机构
山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2009年第1期141-144,共4页
基金
国家自然科学基金资助项目(60473139
60775041)
文摘
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。
关键词
HTML标签
网页分块
内容特征
信息抽取
Keywords
HTML
tags
Web
page
segmentation
content
features
information extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于分块的网页主题文本抽取
任玉
樊勇
郑家恒
《广西师范大学学报(自然科学版)》
CAS
北大核心
2009
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部