期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
互联网商品信息抽取技术 被引量:5
1
作者 于鲁波 陈超 《计算机工程》 CAS CSCD 北大核心 2008年第5期274-276,共3页
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电... 针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。 展开更多
关键词 网页分割 网页信息抽取 包装器 路径聚类
下载PDF
一种基于标签路径聚类的文本信息抽取算法 被引量:2
2
作者 刘云峰 《计算机应用与软件》 CSCD 2010年第11期199-202,共4页
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部... 针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。 展开更多
关键词 xpath 网页分割 信息抽取 聚类 阈值
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部