-
题名基于B2B垂直搜索的网页信息抽取系统研究
- 1
-
-
作者
刘丹
崔阳
-
机构
南海舰队司令部
中国劳动关系学院
-
出处
《计算机技术与发展》
2013年第2期153-156,161,共5页
-
基金
中央高校基本科研业务费专项基金项目(12zy019)
-
文摘
为了解决从网页中准确抽取产品信息这一B2B垂直搜索引擎的关键问题,以站点树为模型,首先分析了企业网站的结构特征,在此基础上构建了一个面向B2B垂直搜索引擎的网页信息抽取系统。该系统利用站点树在企业站点大量网页中识别出产品页,并进行去噪处理,然后使用基于规则的方法抽取产品页中包含的产品描述信息和参数信息。通过该系统抽取到的各类产品信息较为准确,且效率得到明显提高,适用于B2B垂直搜索引擎中对产品的描述、分类及搜索。
-
关键词
B2B垂直搜索
网页信息抽取
企业站点树
去噪
-
Keywords
B2B vertical search engine
web information extraction
corporation website tree
noise elimination
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向B2B垂直搜索的网页信息去噪方法
- 2
-
-
作者
崔阳
吴爱华
-
机构
北京科技大学信息工程学院
九城网络技术集团有限公司
-
出处
《计算机技术与发展》
2008年第12期70-73,共4页
-
基金
国家自然科学基金(60675030)
-
文摘
B2B垂直搜索引擎是垂直搜索引擎在电子商务领域的应用。怎样更好地对互联网中海量的企业产品信息进行抽取和去噪,是当前B2B垂直搜索引擎构建中所面临的重要问题。介绍了B2B垂直搜索引擎的特征;分析了一般企业网站的基本结构,在此基础上提出一种面向B2B垂直搜索引擎的企业站点产品信息去噪方法;给出了该方法的实验结果。使用这种方法抽取到的产品信息可用于指导产品进一步的分类工作。
-
关键词
B2B垂直搜索引擎
信息抽取
去噪
企业站点树
-
Keywords
B2B vertical search engine
information extraction
noise elimination
corporation website tree
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-