基于Web的新闻采集系统被引量：2

News Extraction System Based on Web

下载PDF

导出

摘要随着Intemet的飞速发展，Web已经发展成为一个巨大的信息资源库，但是目前Web数据大都以HTML形式出现，这使得应用程序无法直接利用Web上的海量信息。针对这一问题，出现了Web信息采集技术。该文对信息采集技术进行了探讨，并在此基础上实现了一个基于Web的新闻采集系统．该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息，保存在本地数据库中，用于内部使用或外网发布。 With the rapid development of Intemet, Web has become a huge, distribution and sharing of information resources library. But most of Web-data are represented with HTML. So the massive Web-data are not available to the applications. For this purpose, the technology of Web-information extraction appeared. In this thesis, we discussed the technology of information extraction, and on this basis to achieve a Web-based news extraction system, which users can use regular expressions to make extraction rule and use it to extarct the Web-information quickly and accurately, save in local database, for internal use or released them to the Intemet.

作者胡静芳沈亚斌 HU Jing-fang, SHEN Ya-bin（1.School of Information Engineering, Jingdezhen Ceramic lnsititute, Jingdezhen 333403, China;2. China Helicopter Research and Development Institute, Jingdezhen 333001, China）

机构地区景德镇陶瓷学院信息工程学院中国直升机设计研究所

出处《电脑知识与技术》 2009年第7期5111-5113,共3页 Computer Knowledge and Technology

关键词 WEB信息采集正则表达式采集规则 Web-information extraction regular expressions extraction rule

分类号 TP391 [自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1吴丽辉,王斌,张刚.一个个性化的Web信息采集模型[J].计算机工程,2005,31(22):86-88. 被引量：17
2涂波,王忠民.智能化Web信息采集系统的研究与设计[J].情报杂志,2005,24(3):48-49. 被引量：1
3欧歌,赵恒永.一种专题Web信息采集系统的设计方案[J].电脑与信息技术,2004,12(6):52-55. 被引量：2
4李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
5李盛韬,余智华,程学旗,白硕.Web信息采集研究进展[J].计算机科学,2003,30(2):151-157. 被引量：25
6潘顺,金远平.半结构化数据到结构化数据的模式抽取[J].计算机工程,2002,28(5):57-58. 被引量：3
7张绍华,薛文玲,李天柱.基于Web的快速信息抽取[J].计算机应用,2001,21(7):18-19. 被引量：12

二级参考文献71

1[1]Deutsch A , Fernandez M , Suciu D . Storing Semistructured Data with STORED. 1999 ACM SIGMOD International Conference onManagement of Data, 1999,28(2): 431-442 被引量：1
2[2]Papakonstantinou Y , Vassalos V . Query Rewriting for Semistructured Data. 1999 ACM SIGMOD International Conference onManagement of Data, 1999,28(2): 455-466 被引量：1
3[3]alvanese D , Giacomo G D , Lnzerini M , et al . Rewriting of Regular Expressions and Regular Path Queries. Proc. PODS Conf., 1999:194-204 被引量：1
4[4]Mchugh J, Abiteboul S , Goldman R , et al . Lore: A Database Management System for Semostructured Data. S IGMOD Record, 1997, 26(3): 54-56 被引量：1
5[5]Fernandez M , Suciu D . Optimizing Regular Path Expressions Using Graph Schemas. Proc. ICDE Conf., 1998:14-23 被引量：1
6[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996 被引量：1
7[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3) 被引量：1
8[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01 被引量：1
9[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1) 被引量：1
10[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001 被引量：1

共引文献229

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17
4叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
5岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
6张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
7姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量：5
8李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
9宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
10李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2

同被引文献10

1洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
2Gautam Pant,Padmini Srinivasan. Link Contexts in Classifier-Guided Topical Crawlers[J].IEEE Transactions on Knowledge and Data Engineering,2006,(01):107-122. 被引量：1
3Srinivasan P,Menczer F,Pant G. A General Evaluation Framework for Topical Crawlers[J].Information Retrieval,2005,(03):417-447. 被引量：1
4姜鑫.基于网页连通信息的主题爬行技术研究与实现[D]长春:吉林大学,2009. 被引量：1
5吴定明,赵东岩.一种互联网新闻网页的采集分析方法[J].计算机工程与应用,2007,43(36):169-172. 被引量：1
6王煜,张浩斌.面向主题的网页采集系统的设计与研究[J].计算机与数字工程,2008,36(4):78-80. 被引量：3
7张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
8赵建涛,徐玉凤.基于RSS的新闻采集系统的研究[J].西安航空技术高等专科学校学报,2010,28(3):53-55. 被引量：3
9胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
10王玥,唐晓菲.网络新闻采集与传统采访的比较研究[J].才智,2009,0(29):153-153. 被引量：1

引证文献2

1杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.
2陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3

二级引证文献3

1武海东,何晓阳,张精理.医学学术信息自动采集系统的设计与实现[J].现代图书情报技术,2014(11):73-78.
2魏小锐,谢满.基于移动平台的校园即时新闻资讯系统的设计与实现[J].东莞理工学院学报,2015,22(1):57-62.
3俞靓亮.终身学习网站新闻采集系统的设计与实现[J].宁波工程学院学报,2016,28(1):6-9.

1中山八路.以盗制盗：入侵新闻采集系统[J].黑客防线,2005(11):31-32.
2赵建涛,徐玉凤.基于RSS的新闻采集系统的研究[J].西安航空技术高等专科学校学报,2010,28(3):53-55. 被引量：3
3朱楠.抗复杂环境干扰的通信信号采集系统设计[J].科学技术与工程,2014,22(8):214-217. 被引量：2
4黎孟雄.Web教学资源自动搜索系统的研究与实现[J].青岛科技大学学报（自然科学版）,2008,29(6):546-549. 被引量：1
5陈瑞,程秀清.P2卡——新闻采集系统的重大变革[J].现代电视技术,2004(4):117-118. 被引量：2
6徐雁飞,刘渊,吴文鹏.社交网络数据采集技术研究与应用[J].计算机科学,2017,44(1):277-282. 被引量：14
7徐伟红.视频监控证据规则研究[J].中国安防,2012(10):108-112. 被引量：4
8耿亚玮,熊桂喜.一种用于数据库搜索引擎的数据采集模型[J].微计算机信息,2007,23(33):136-138. 被引量：8
9陈艳春.竞争情报采集系统研究[J].石家庄铁道学院学报,2008,21(2):59-63.
10李波,孙建.通用网页数据采集系统设计[J].科技与生活,2010(2):17-17.

电脑知识与技术

2009年第7期

浏览历史

内容加载中请稍等...

基于Web的新闻采集系统被引量：2

参考文献7

二级参考文献71

共引文献229

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Web的新闻采集系统 被引量：2

参考文献7

二级参考文献71

共引文献229

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Web的新闻采集系统被引量：2