-
题名基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:5
- 1
-
-
作者
刘鹏程
胡骏
吴共庆
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
-
基金
国家重点研发计划资助项目(2016YFB1000901)
国家自然科学基金资助项目(61273297
+3 种基金
61229301
61673152)
国家教育部创新团队发展计划资助项目(IRT13059)
国家留学基金资助项目(201506695019)
-
文摘
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
-
关键词
正文抽取
文本块密度
标签路径覆盖率
特征融合
-
Keywords
content extraction
text block density
tag path coverage
feature fusion
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标签路径覆盖率和多文本特征的正文抽取算法
- 2
-
-
作者
郑野
宋旭东
于林林
陈鑫影
-
机构
大连交通大学软件学院
大连科技学院数字技术学院
-
出处
《大连交通大学学报》
CAS
2019年第5期112-116,共5页
-
基金
辽宁省自然科学基金资助项目(1553735707452,20170540144)
-
文摘
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
-
关键词
文本块密度
标签路径覆盖率
正文抽取
-
Keywords
text block density
label path coverage
text extraction
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-