期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于分块的网页主题信息自动提取算法 被引量:6
1
作者 殷贤亮 李猛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用... 对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 展开更多
关键词 网页分块 主题信息 自动提取 特征选择 网页分类
下载PDF
基于新型主题信息量化方法的Web主题信息提取研究 被引量:1
2
作者 吕聚旺 都云程 +1 位作者 王弘蔚 施水才 《现代图书情报技术》 CSSCI 北大核心 2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采... 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 展开更多
关键词 网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部