期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于统计与正文特征的中文网页正文抽取研究 被引量:16
1
作者 周佳颖 朱珍民 高晓芳 《中文信息学报》 CSCD 北大核心 2009年第5期80-85,共6页
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子... 该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。 展开更多
关键词 计算机应用 中文信息处理 正文抽取 单正文体 多正文体
下载PDF
基于多特征融合的网页正文信息抽取 被引量:4
2
作者 刘利 戴齐 +2 位作者 尹红风 贾真 胡万亭 《计算机应用与软件》 CSCD 北大核心 2014年第7期47-49,77,共4页
当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信... 当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。 展开更多
关键词 单正文体 多正文体 多特征 信息抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部