期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于分块的网页主题信息自动提取算法
被引量:
6
1
作者
殷贤亮
李猛
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用...
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.
展开更多
关键词
网页分块
主题信息
自动提取
特征选择
网页分类
下载PDF
职称材料
基于新型主题信息量化方法的Web主题信息提取研究
被引量:
1
2
作者
吕聚旺
都云程
+1 位作者
王弘蔚
施水才
《现代图书情报技术》
CSSCI
北大核心
2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采...
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
展开更多
关键词
网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
职称材料
题名
基于分块的网页主题信息自动提取算法
被引量:
6
1
作者
殷贤亮
李猛
机构
华中科技大学计算机科学与技术学院
出处
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007年第10期39-41,共3页
文摘
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.
关键词
网页分块
主题信息
自动提取
特征选择
网页分类
Keywords
web
-
page
segmentation
topic
content
information
automate
extraction
feature
selection
web
page
classification
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于新型主题信息量化方法的Web主题信息提取研究
被引量:
1
2
作者
吕聚旺
都云程
王弘蔚
施水才
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第12期48-53,共6页
基金
国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)
国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081)
北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一
文摘
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
关键词
网页主题信息信息抽取信息块语义信息IB—DOM树
Keywords
topic
information
of
web
page
information
extraction
information
block
Semantic
information
IB
-DOM
tree
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于分块的网页主题信息自动提取算法
殷贤亮
李猛
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007
6
下载PDF
职称材料
2
基于新型主题信息量化方法的Web主题信息提取研究
吕聚旺
都云程
王弘蔚
施水才
《现代图书情报技术》
CSSCI
北大核心
2008
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部