基于结构分析和实体识别的信息集成被引量：5

Information Integration Based on Structural Analysis and Entity Recognition

下载PDF

导出

摘要针对海量的Web数据 ,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法 ,利用XML强大的数据描述能力 ,灵活组织集成的Web文档信息内容方法首先将半结构化的HTML文档转化成具有模式结构的XML文档 ,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据 ,最后将得到的多数据类型的信息集成到数据库中 ,以支持进一步的分析和查询 Web information is expanding quickly with the dramatic expanse of Internet In this paper a Web information extraction and integration method is proposed, which is based on structure analysis and entity extraction Firstly it converts the semi structured HTML documents to formal XML documents with schema using XML technology Then significative information can be extracted from interesting area through entity recognition process Finally tremendous formal information can be integrated into database, which can support advanced query and analysis This approach also defines some patterns which can deal with heterogeneity of Web documents and achieve individuation of integrated documents The results of experiments validate the feasibility of the approach

作者苏志华杨冬青唐世渭王腾蛟

机构地区北京大学计算机科学与技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1823-1828,共6页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究发展规划基金项目 (G19990 3 2 70 5 ) 国家"八六三"高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题 ( 2 0 0 2AA4Z3 440 )

关键词信息提取信息集成 XML WRAPPER 实体识别 information extraction information integration XML wrapper entity extraction

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1M E Califf, R J Mooney. Relational learning of pattern-match rules for information extraction. In: Proc of the 16th National Conf on Artificial Intelligence and the 11th Conf on Innovative Applications of Artificial Intelligence. Menlo Park, California:AAAI Press/The MIT Press, 1999. 328～334 被引量：1
2D Freitag. Machine learning for information extraction in informal domains. Machine Learning, 2000, 39(2-3): 169～202 被引量：1
3S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～272 被引量：1
4A Sahuguet, F Azavant. Building intelligent Web applications using lightweight wrappers. Data and Knowledge Engineering,2001, 36(3): 283～316 被引量：1
5Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for Web information sources. In: Proc of the 16th Int'l Conf on Data Engineering. Los Alamitos, California:IEEE Computer Society, 2000. 611～621 被引量：1
6R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128 被引量：1
7V Crescenzi, G Mecca. Grammars have exceptions. Information Systems, 1998, 23(9): 539～565 被引量：1
8B Adelberg. NoDoSE-A tool for semi-automatically extracting structured and semi-structured data from text documents. In: Proc of the 1998 ACM SIGMOD Int'l Conf on Management of Data.New York: ACM Press, 1998. 283～294 被引量：1
9D Bikel, R Schwarta, R Weisehedel. An algorithm that learns what's in a name. Machine Learning, 1997, 34(1-3): 211～231 被引量：1
10D Freitag, A L McCallum. Information extraction using HMMs and shrinkage. In: Proc of the 16th National Conf on Artificial Intelligence. Menlo Park, California: AAAI Press, 1993. 31～36 被引量：1

同被引文献27

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2胡新荣,聂刚.基于Web Services的分布式应用研究[J].控制工程,2004,11(3):243-246. 被引量：21
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4沈晓娟,刘渊.WEB半结构化数据查询[J].计算机工程与设计,2004,25(7):1178-1181. 被引量：1
5王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量：5
6李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
7张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
8郑冬冬,崔志明.Deep Web查询接口选择[J].计算机应用,2006,26(9):2024-2027. 被引量：6
9郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
10Line Eikvil.. Information Extraction from World Wide Web A Survey[ M], Report No. 945 , Norwegian Computing Center ,ISBN 82 - 539 - 0429 - 0 , July , 1999. 被引量：1

引证文献5

1张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
2李石生,刘海博,赵耀.基于DeepWeb的图书检索系统设计[J].河北大学成人教育学院学报,2008,10(1):103-104. 被引量：3
3周爱武,李玉梅,周闪闪,王宝铜.基于返回结果的Deep Web查询接口识别[J].计算机技术与发展,2009,19(7):117-119. 被引量：1
4苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
5闫海忠.Delphi利用ADO+RemObject SDK构架Excel数据服务器(四)——Delphi+RemObjectcs创建灵活的Excel客服端应用[J].电脑编程技巧与维护,2014(7):5-8.

二级引证文献7

1葛景陶.基于改进蚁群算法的高校图书馆书目检索策略研究[J].长沙铁道学院学报（社会科学版）,2011,12(2):274-276. 被引量：2
2苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
3盛帅,郝改琴.一种基于XML和正则表达式的简单验证框架[J].知识经济,2010(14):122-123.
4余丽.基于模糊聚类的图书目录查询方法研究[J].电脑编程技巧与维护,2010(18):44-46.
5王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
6王圣镔,郑欣欣.基于第三方控件的书目检索系统的设计与实现[J].黑龙江科技信息,2013(32):169-169. 被引量：1
7方挺立,黄玮,戴霖.MBD模型质量检测系统研发与应用研究[J].机械设计与制造工程,2018,47(6):73-77. 被引量：1

1赵静玉,范新峰,陈越.Use Case的分析设计和实现[J].微机发展,2000,10(1):60-62.
2汤薇.网络取证中基于实体行为的信任模型[J].科技信息,2010(10).
3任志涛,王士伟.建设工程项目过程管理的组织集成[J].工程经济,2014,24(Z1):40-44.
4董震,朱晓光.数据仓库实践问题浅析[J].中国金融电脑,2005(9):61-63. 被引量：2
5蔡文学,萧超武,黄晓宇.基于LDA的用户轨迹分析[J].计算机应用与软件,2015,32(5):307-309. 被引量：2
6赵震,张龙昌.XML文档实体识别技术研究[J].计算机技术与发展,2014,24(10):84-87. 被引量：2
7郑显凌,张智勇,吴波.CORBA和XML在虚拟制造组织集成中的应用[J].机械,2003,30(S1):137-139.
8于黎.修改弧的半径及尺寸标注[J].新疆石油科技,1996,6(4):58-61.
9陈明,孙丽丽.基于WAP的移动搜索模型[J].计算机工程,2008,34(3):205-206. 被引量：6
10于婧,伊鹏,刘强,汪斌强.TSS-SON：一种基于结构化P2P网络路由的两级语义覆盖网络结构[J].高技术通讯,2007,17(7):693-697. 被引量：1

计算机研究与发展

2004年第10期

浏览历史

内容加载中请稍等...

基于结构分析和实体识别的信息集成被引量：5

参考文献16

同被引文献27

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于结构分析和实体识别的信息集成 被引量：5

参考文献16

同被引文献27

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于结构分析和实体识别的信息集成被引量：5