期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于权值优化的网页正文内容提取算法 被引量:8
1
作者 吴麒 陈兴蜀 谭骏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第4期32-37,共6页
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后... 目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%. 展开更多
关键词 权值优化 正文内容提取 特征属性 统计特征 准确率 召回率
下载PDF
基于信息量衰减幅度的网页正文提取 被引量:1
2
作者 陈阳 陈兴蜀 吴麒 《计算机工程与设计》 CSCD 北大核心 2012年第7期2555-2560,共6页
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅... 网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。 展开更多
关键词 网页正文提取 标签树 主题区域子树 信息抽取 网页噪音
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部