基于本体论的Web信息抽取被引量：34

Ontology-Based Information Extraction from Web Sources

下载PDF

导出

摘要以本体论为基础 ,以所要提取的信息的层次结构作为信息提取的路径 ,定义了Web页面的信息项本体 ,并自动解析生成Web页面的结构本体通过对这两个本体进行对比 ,构造了一种归纳学习算法来半自动地生成信息提取规则。 Based on the ontology, this paper regards the hiberarchy of information to be extracted as the path of information extraction, defines an information item ontology of Web page and automatic creates a construction ontology by parsing the Web page. Using these two ontologies, a novel approach to semi-automatically generate information extraction rules is presented for efficiently collecting information from Web.

作者周明建高济李飞

机构地区浙江大学人工智能研究所

出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第4期535-541,共7页 Journal of Computer-Aided Design & Computer Graphics

基金国家自然科学基金 ( 69773 0 19)资助

关键词本体论 WEB HTML 结构本体信息项本体信息提取归纳学习算法包装器软件 ontology Web inductive learning HTML

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Hammer J, Garcia-Molina H, Nestorov S, et al. Template-based wrapper in the TSIMMIS system (system demonstration)[A]. In: Proceedings of ACM SIGMOD Conference on Management of Data, Tucson, Arizona, 1997. 532～535 被引量：1
2Hammer J, Garcia-Molina H, Cho J, et al. Extracting semi-structured information from the Web[A]. In: Proceedings of Workshop on Management of Semi-Structured Data, Tucson, Arizona, 1997. 18～25 被引量：1
3李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191. 被引量：38
4Kushmerick N, Weld D, et al. Induction for information extraction[A]. In: Proceedings of the 15th International Joint Conference on Artificial Intelligent, Nagoya, 1997, 2: 729～737 被引量：1
5Ashish N, Knoblock C. Wrapper generation for semi-structured internet sources[A]. In: Proceedings of Workshop on Management of Semi-Structured Data, Tucson, Arizona, 1997. 10～17 被引量：1
6陈羡.[D].杭州: 浙江大学,2001,18～20. 被引量：1

二级参考文献1

1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47

共引文献37

1宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
2严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
3郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
4郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
5李小斌.一种从HTML页面到RDF文档的转化方法[J].电脑与信息技术,2006,14(4):24-26. 被引量：1
6黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
7曾苏,马建霞,张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术,2008(4):7-11. 被引量：10
8张诚,郝东白,龙海,黄皓.基于正则表达式的WebMail监控与审计[J].计算机工程与设计,2008,29(13):3277-3279. 被引量：3
9钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9
10徐慧,杨学兵.基于本体相似度的中文科研论文信息抽取[J].计算机技术与发展,2008,18(12):203-206. 被引量：2

同被引文献369

1李曼,王琰,赵益宇,杜小勇,王珊.基于关系数据库的大规模本体的存储模式研究[J].华中科技大学学报（自然科学版）,2005,33(z1):217-220. 被引量：32
2齐从谦,张殿东,王敏.语义网与高校信息化建设[J].华中科技大学学报（自然科学版）,2003,31(S1):95-97. 被引量：12
3樊延平,马亚龙,袁野.军事想定数据挖掘技术研究[J].系统仿真学报,2006,18(z2):172-174. 被引量：3
4郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
7王波,姚敏.基于信息抽取的匿名用户兴趣描述[J].华南理工大学学报（自然科学版）,2004,32(z1):117-120. 被引量：1
8朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
9赵庆龄,钱平,苏晓路,杨娟,赵明.基于本体论的土壤知识体系智能检索系统的设计与Web实现[J].中国农业大学学报,2003,8(z1):66-70. 被引量：3
10黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13

引证文献34

1岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
2宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
3楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
4刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
5翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
6翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
7严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
8彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.
9李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
10柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5

二级引证文献82

1郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
2唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
3乔燕鸿.国内图书馆学情报学领域关于Ontology的研究综述[J].现代情报,2006,26(9):121-124. 被引量：6
4彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.
5盛秋艳,刘群.一种基于本体的叙词语义描述方法[J].情报科学,2007,25(9):1415-1418. 被引量：6
6王晶晶.基于IPSec协议的VPN技术探索与研究[J].电脑知识与技术,2008(5):635-636. 被引量：4
7蔡炜,张艳花.基于本体的图书馆文献资源检索技术研究[J].图书馆工作与研究,2008(8):36-38. 被引量：2
8卫兆臣,杨耐生,李卫东.实时聊天室用于学生远程智能答疑系统[J].微型电脑应用,2008,24(8):39-41.
9钱力,齐林海,马素霞.基于ASP.NET 2.0 AJAX的Web信息采集系统的设计与实现[J].中国电力教育,2007(S3):241-243. 被引量：3
10李丽,李吉桂.基于Ontology的基础教育资源规划(BERP)的研究[J].计算机科学,2009,36(5):169-171.

1李宏伟.Web网页数据抽取软件的设计与实现[J].职业时空,2008,4(10):245-245.
2王红卫,马红,张素智,赵宇.基于预定义模式的Web网页结构化数据抽取[J].郑州轻工业学院学报（自然科学版）,2008,23(6):1-3. 被引量：1
3邵园园,曾庆良,玄冠涛,刘贤喜,王成龙.基于本体的液压支架产品信息建模[J].矿山机械,2012,40(9):17-20.
4徐翔斌.基于本体自主学习的农机故障诊断专家系统开发[J].机床与液压,2011,39(9):142-145. 被引量：3
5刘卫红,吴江.本体在E-learning系统中的应用研究[J].计算机应用研究,2006,23(4):63-64. 被引量：13
6熊春荣,谢妙.一种基于本体的高校知识管理系统及实现[J].计算机与现代化,2006(9):115-119. 被引量：1
7戴静波,曾亮,张巍.虚拟战场环境中群体组织结构本体建模方法研究[J].系统仿真学报,2008,20(S1):128-131. 被引量：5
8周献中,施爱博,吴奎,崔曙光.基于本体的炮兵火力分配决策问题模型化方法[J].火力与指挥控制,2008,33(11):85-88. 被引量：5
9赵国涛,何钦铭.基于本体的异构文本分类系统[J].计算机工程,2004,30(21):123-125. 被引量：4
10李晓霞,汪云甲.面向对象的高分辨率影像采煤塌陷地提取[J].计算机工程与应用,2011,47(23):239-241. 被引量：3

计算机辅助设计与图形学学报

2004年第4期

浏览历史

内容加载中请稍等...

基于本体论的Web信息抽取被引量：34

参考文献6

二级参考文献1

共引文献37

同被引文献369

引证文献34

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于本体论的Web信息抽取 被引量：34

参考文献6

二级参考文献1

共引文献37

同被引文献369

引证文献34

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于本体论的Web信息抽取被引量：34