开放式Web信息抽取系统研究与实现被引量：3

RESEARCH AND DEVELOPMENT ON OPEN WEB INFORMATION EXTRACTION

下载PDF

导出

摘要在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的“硬编码”,而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围. With the help of research achievements home and abroad, an open Web information extraction system is given here based on the structure of Web information. The extraction rule of this system is not “hard encoding”, but is deduced from its automatic learning with users＇ necessary adjusting. As a result, the system can be widely used.

作者傅骞温晓辉

机构地区北京师范大学教育技术学院

出处《北京师范大学学报（自然科学版）》 CAS CSCD 北大核心 2005年第6期594-598,共5页 Journal of Beijing Normal University(Natural Science)

基金北京师范大学青年教师基金项目

关键词 WEB信息抽取算法归纳聚类 Web information extraction wrapper induction clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
2Robert Gaizauskas,Yorick Wilks.Information extraction:beyond document retrieval [J].Journal of Documentation,1998,54 (1):70 被引量：1
3Han Jiawei,Karnber M.Data mining concxepts and techiques[M].范明,孟小峰,译.北京:北京工业出版社,2001 被引量：1
4Wadie Sirgany.An introduction to the art and mathematics of cluster analysis[EB/OL].[2004-11-10].http://www.i-m-i.info/bytesofscience/archives/clus.htm 被引量：1
5Dayne Freitag.Information extraction from HTML:application of a general machine learning approach[C]//Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),Madison:Wisconsin,1998 被引量：1
6Mary Elaine Califf.Relational learning techniques for natural language information extraction[EB/OL].[2005-03-10].http://www.cs.utexas.edu/users/mi/papers/rapier-dissertation98.pdf 被引量：1
7Ion Muslea,Steve Minton,Craig Knoblock.Hierarchical wrapper induction for semi-structured sources [J].Journal of Autonomous Agents and Multi-Agent Systems,2001,4:93 被引量：1
8Liu Ling,Calton Pu,Han Wei.XWRAP:an XML-based wrapper construction system for web information sources[EB/OL].[2005-03-10].http://citeseer.ist.psu.edu/215418.html 被引量：1

二级参考文献20

1[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996 被引量：1
2[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3) 被引量：1
3[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01 被引量：1
4[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1) 被引量：1
5[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001 被引量：1
6[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999 被引量：1
7[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997 被引量：1
8[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981 被引量：1
9[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176 被引量：1
10[5]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C].In :Proceedings of the 16h International Conference on Computational Linguistics(COLING-96),1996-08 被引量：1

共引文献177

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
9马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2
10陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1

同被引文献14

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4李嘉佑,贾自艳,何清,史忠植.基于Web挖掘的网页清洗技术[J].计算机工程与应用,2006,42(25):98-101. 被引量：7
5闫伟,张浩,陆剑峰,袁磊.聚类分析理论研究及在流程企业中的应用[J].计算机工程,2006,32(17):19-21. 被引量：7
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8Cutler M,Shih Y,Meng W.Using the Structure of HTML Documents to Improve Retreival[C]//Proc.of USENIX Symposium on Internet Technologies and Systems.1997:241-251. 被引量：1
9Brin S,Page L.The Anatomy of a Large Scale Hyper-textual Web Search Engine[J].Computer Networks and ISDN Systems.1998,30(1/7):107-117. 被引量：1
10Davulcu H,Vadrevu S,Nagarajan S.OntoMiner:Bootstrapping and Populating Ontologies from Domain Specific Web Sites[J].Intelligent Systems,2003,18(5):24-33. 被引量：1

引证文献3

1刘顺来.基于聚类分析的Web信息搜索算法研究[J].电脑与电信,2007(6):53-56.
2李锋.基于网站拓扑的网页内容精化算法[J].计算机工程,2007,33(21):50-51. 被引量：1
3常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15

二级引证文献16

1胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
2胡晟,季志远,程晓荣.基于数据挖掘的主题种子站点提取器的研究[J].软件,2013,34(2):56-57. 被引量：6
3肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
4吴文辉.网页新闻内容自动采集[J].电脑编程技巧与维护,2014(14):82-82.
5吴茜,刘嘉勇,卿粼波.基于VIPS算法和模糊字典匹配的网页提取技术研究[J].信息网络安全,2014(10):49-53. 被引量：4
6王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
7马国富.网络论坛类媒体舆情热点主动发现的方法[J].重庆科技学院学报（社会科学版）,2015(3):7-8.
8刘曦恺.HTML网页发展的可用性探析[J].通讯世界（下半月）,2015(6):282-282.
9高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016,39(4):133-137. 被引量：9
10才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4

1王晓东,吴英杰,傅仰耿,傅志祥.算法归纳设计策略与循环不变式[J].福州大学学报（自然科学版）,2004,32(4):387-392. 被引量：3
2贡正仙,支丽艳,朱巧明,李培峰.基于网格的Web信息抽取系统的设计与实现[J].计算机应用与软件,2007,24(11):50-51. 被引量：2
3崔婉秋,李昕,孟祥福,崔岩,王大伟.关系数据库关键字查询方法研究[J].小型微型计算机系统,2016,37(12):2702-2707. 被引量：3
4郭龙江,李建中,李金宝.无线传感器网络若干定位算法的研究[J].计算机工程与设计,2006,27(12):2114-2118. 被引量：12
5谭锋,李天真,崔亮亮.Web信息抽取系统研究综述[J].科技创新导报,2010,7(34):2-2. 被引量：3
6谭锋,李天真,崔亮亮.基于.NET的Web信息抽取系统关键技术研究[J].软件导刊,2010,9(12):120-122.
7朱跃林,戴昌林,高志强.基于SRI的动态网页信息抽取方法[J].重庆工学院学报（自然科学版）,2009,23(10):87-93. 被引量：1
8李凌云.无线传感器网络定位技术研究[J].信息技术,2008,32(12):148-150. 被引量：4
9孙阳.WEB信息的抽取与集成研究[J].中国电子商务,2009(8):38-38.
10王宗良,高静,阿木古楞.Web信息抽取系统分类方法研究[J].内蒙古农业大学学报（自然科学版）,2012,33(4):218-222.

北京师范大学学报（自然科学版）

2005年第6期

浏览历史

内容加载中请稍等...

开放式Web信息抽取系统研究与实现被引量：3

参考文献8

二级参考文献20

共引文献177

同被引文献14

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

开放式Web信息抽取系统研究与实现 被引量：3

参考文献8

二级参考文献20

共引文献177

同被引文献14

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

开放式Web信息抽取系统研究与实现被引量：3