基于逆向匹配的电子商务网站实体模板半自动构建方法

Reverse Match Based Semi-automatic Entity Template Extraction for E-commerce Websites

下载PDF

导出

摘要 Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。 Generally, the distribution of the subject information in the Web page is centralized . Therefore,we can utilize this characteristics＇ of Web page to extract the subject information automatically. Due to the fact that the HT- ML label in the page source code is not well qualified, it is difficult to construct a DOM tree with accurate structure through the forward matching. This article presents a new method which applies the reverse matching to construct a complete DOM tree. By deleting the insignificant node the DOM tree, we can select from the remained information node labels manually to finalize the templeaterdeeiden if they are unique. This is a general and semi- automatic method, and experiments on the e-commerce webpages are reported in this paper.

作者傅彦徐昭邦夏虎周俊临

机构地区电子科技大学计算机科学与工程学院互联网科学中心

出处《中文信息学报》 CSCD 北大核心 2015年第2期157-162,178,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61103109 11105024 61003231) 中央高校基本科研业务费(ZYGX2011J057 ZYGX2012J071 ZYGX2012J085) 四川省科技项目(2010HH0002 2011GZ0106 20112Z0001 2012RZ0002 2012RZ0003) 高等学校博士学科点专项科研基金(20120185120017)

关键词逆向匹配 DOM树模板构建信息提取 reverse matching DOM trees template extraction information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨晓琴,鞠时光,曹庆皇,王秀红.面向Deep Web数据自动抽取的模板生成方法[J].计算机应用研究,2010,27(1):200-203. 被引量：3
2周圻.面向电子商务网站的深度搜索与信息抽取研究[D].江西:江西师范大学软件学院硕士学位论文,2011. 被引量：1
3侯明燕..基于网页信息定位的数据抽取技术的研究[D].暨南大学,2011:
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5Beyer K,Viglas S D, Tatarinov I,et al. Storing andquerying ordered XML using a relational database sys*tem[C]|//Proceedings of the 2002 ACM SIGMOD In-ternational Conference, 2002: 204-215. 被引量：1

二级参考文献23

1CHANG KCC, CHO J. Accessing the Web: from search to integration [ C]//Proc of ACM SIGMOD lnt' 1 Conf on Management of Data. New York: ACM Press, 2006: 804-805. 被引量：1
2CRESCENZI V, MECCA G, MERALDO P. RoadRunner: towards automatic data extraction from large Web sites[ C ]//Pine of the 27th Int' 1 Conf on Very Large Data Bases. San Fran: Morgan Kaufmann Publishers, 2001 : 109-118. 被引量：1
3ARASU A, HECTOR G M. Extracting structured data from Web pages[ C ]//Proc of ACM SIGMOD Int'l Conf on Management of Data. New York: ACM Press, 2003 : 337-348. 被引量：1
4WANG J Y, LOCHOVSKY F H. Data extraction and label assignment for Web databases [ C ]//Proc of the 12th lnt' 1 World Wide Web Conference. New York: ACM Press, 2003 : 187- 196. 被引量：1
5ZHAO H K, MENG W Y, WU Z H,et al, Fully automatic wrapper generation for search engines[ C]//Proc of the 14th Int'l Conference on World Wide Web. New York: ACM Press, 2005: 66-75. 被引量：1
6LIU B, GROSSMAN R, ZHAI Y. Mining data records in Web pages [C]//Proc of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2003 :601-606. 被引量：1
7ZHAI Y, LIU B. Web data extraction based on partial tree alignment [ C ]//Proc of the 14th International World Wide Web Conference. New York:ACM Press, 2005:76-85. 被引量：1
8GOLD M E. Language identification in the limit [ J]. Information and Control, 1967,10(5) : 447-474. 被引量：1
9YANG W. Identifying syntactic differences between two programs [ J ]. Software-Practice and Experience, 1991,21 (3) :739-755. 被引量：1
10HE Bin. BAMM extracted query schemas [ EB/OL ]. http://metaquerier, cs. uiuc. edu/repository/datasets/bamm/browsable, html. 被引量：1

共引文献82

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

1李瑞芳,孙健,李娜.基于计算机自动分词的研究[J].沈阳化工学院学报,2008,22(3):255-259. 被引量：3
2田学东,王菲.一种改进的公式结构分析方法[J].计算机应用与软件,2008,25(4):40-42. 被引量：1
3徐力斌,刘宗田,周文,宋二伟.基于WordNet和自然语言处理技术的半自动领域本体构建[J].计算机科学,2007,34(6):219-222. 被引量：15
4林强.一种改进的SIFT图像匹配算法[J].现代计算机（中旬刊）,2015(2):58-62. 被引量：4
5吴佩洁,史伟,何航宇.基于折叠式散列映射的K-merIndex方法[J].电脑与信息技术,2015,23(6):22-24. 被引量：2
6吉训生,陈赛,王荣飞.局部自适应加权的逆结构稀疏表示跟踪算法[J].光电工程,2016,43(12):85-91. 被引量：2
7陈琨,张蕾.基于知识图的领域本体构建方法[J].计算机应用,2011,31(6):1664-1666. 被引量：15
8刘伟成,焦玉英,李法运.专题文献过滤系统中的用户模板构建技术研究[J].情报理论与实践,2006,29(3):314-317. 被引量：2
9闫伟,杨秀梅.一种适用于唐诗诗句分词方法的研究[J].现代计算机,2016,22(2):17-19. 被引量：2
10丁健龙.基于构件的自组织通用报表研究[J].现代机械,2006(3):21-24. 被引量：1

中文信息学报

2015年第2期

浏览历史

内容加载中请稍等...

基于逆向匹配的电子商务网站实体模板半自动构建方法

参考文献5

二级参考文献23

共引文献82

相关作者

相关机构

相关主题

浏览历史