-
题名互联网商品信息抽取技术
被引量:5
- 1
-
-
作者
于鲁波
陈超
-
机构
中国科学技术大学电子工程与信息科学系
多媒体计算与通信教育部微软重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第5期274-276,共3页
-
基金
多媒体计算与教育部-微软重点实验室开放基金资助项目(06120809)
-
文摘
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。
-
关键词
网页分割
网页信息抽取
包装器
路径聚类
-
Keywords
Web page segmentation
Web page information extraction
wrapper
xpath clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于标签路径聚类的文本信息抽取算法
被引量:2
- 2
-
-
作者
刘云峰
-
机构
山西工程职业技术学院网络电教中心
-
出处
《计算机应用与软件》
CSCD
2010年第11期199-202,共4页
-
文摘
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。
-
关键词
xpath
网页分割
信息抽取
聚类
阈值
-
Keywords
xpath
Webpage segmentation
Information extraction
clustering
Threshold
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-