基于Internet的农业信息资源采集系统

The Agriculture Information Collection System Based on Internet

下载PDF

导出

摘要随着Internet的迅速发展,其信息容量呈爆炸性增长,但信息的庞杂无序也给人们更好地利用信息带来了困难。这就要求人们必须能够对Web信息资源进行及时采集、高效处理和科学组织。为此,提出了一种在HTML结构分析和特征词匹配基础上实现网页特定信息采集的新方法,并运用此方法设计了一个农业信息资源采集系统。实践证明,此方法在Web信息采集系统中具有较强的实用性和灵活性。 Along with the Internet rapid development, its information capacity presents an explosion growth. But the numerous and disorderly information also gave the people the better use information to bring the difficulty. This requests the people to have to be able to the Web information resource carry on collecting in time, highly effective processing and scientifically organizes. This paper proposed one kind realizes the homepage specific information gathering new method based on the HTML structure analysis and the characteristic words match, and designed the agriculture information resource gathering system by this method. The practice proved that, this method has a stronger usability and the flexibility in the Web information collection system.

作者赵洋马建斌刘博王春山

机构地区河北农业大学信息科学与技术学院

出处《农机化研究》北大核心 2008年第10期139-141,共3页 Journal of Agricultural Mechanization Research

基金河北农大大学生科技创新基金(07-KJ-026)

关键词信息采集互联网 HTML 特征词 information collection Internet HTML characteristic words

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] S126 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
2黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
3陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
4王治和.表格信息抽取引擎的设计与实现[J].计算机科学,2006,33(10):126-127. 被引量：4
5邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8

二级参考文献29

1陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
2杨明福.计算机网络[M].北京:电子工业出版社,1999.123-127. 被引量：6
3Yi Lan,Liu Bing.Web Page Cleaning for Web Mining through Feature Weighting[C].In:the proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03),Acapulco,Mexico,2003-08 被引量：1
4Bar-Yossef Z,Rajagopalan S.Template Detection via Data Mining and its Applications[C].In:the proceedings of 11th World Wide Web conference (WWW 2002),Hawaii,USA,2002-05 被引量：1
5Lin S-H,Ho J-M.Discovering Informative Content Blocks from Web Documents[C].In:the proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (SIGKDD'02),Alberta,Canada,2002 被引量：1
6Deng Cai,Yu Shipeng,Wen Jirong et al.VIPS:a vision-based page segmentation algorithm[R].Microsoft Technical Report,MSR-TR-2003-79,2003 被引量：1
7Gupta S,Kaiser G,Neistadt D et al.DOM based Content Extraction of HTML Documents[C].In:the proceedings of the 12th World Wide Web conference (WWW 2003),Budapest,Hungary,2003-05 被引量：1
8Aidan Finn,Nicholas Kushmerick,Barry Smyth.Fact or fiction:Content Classification for digital libraries[C].In:Joint DELOS-NSF Workshop on Personalisation and Recommender Systems in Digital Libraries,Dublin,2001 被引量：1
9CyberNeko HTML Parser.http://www.apache.org/～andyc/neko/doc/html/index.html 被引量：1
10Laender H F, Ribeiro-Neto B A, A S da Silva, et al.A Brief Survey of Web Data Extraction Tools.SIGMOD Record, 2002, 31(2): 84-93 被引量：1

共引文献49

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
3高波.网页元素结构化模型的研究[J].常州工学院学报,2008,21(3):43-45.
4李宏伟,张志远.Web实体提取在垂直搜索中的应用研究[J].新技术新工艺,2008(12):62-65.
5陈圣俭,孙明涛.基于B/S架构的Web网页结构检测应用研究[J].现代电子技术,2009,32(2):135-138. 被引量：2
6胡国晴,李建华.一种基于可信度分析的Web页面新属性发现方法[J].计算机技术与发展,2009,19(1):56-59. 被引量：3
7王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
8胡亮,袁芳,齐芸芸.农业垂直搜索引擎信息抽取的研究[J].计算机工程与设计,2009,30(5):1115-1118. 被引量：4
9孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3
10任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5

1赵洋,滕桂法,张玉新,何冬梅.基于Internet的农业信息垂直搜索引擎的设计[J].河北农业大学学报,2009,32(6):125-128. 被引量：6
2钱力,齐林海,马素霞.基于ASP.NET 2.0 AJAX的Web信息采集系统的设计与实现[J].中国电力教育,2007(S3):241-243. 被引量：3
3“数据存储”栏目征稿启事[J].网管员世界,2010(2):71-71.
4“数据存储”栏目征稿启事[J].网管员世界,2010(7):76-76.
5“数据存储”栏目征稿启事[J].网管员世界,2010(5):64-64.
6尹大力.编译原理计算机辅助教学系统的研制[J].长春理工大学学报（自然科学版）,2002,25(3):42-44. 被引量：2
7“数据存储”栏目征稿启事[J].网管员世界,2010(8):79-79.
8“数据存储”栏目征稿启事[J].网管员世界,2010(3):120-120.
9“数据存储”征稿启事[J].网管员世界,2009(23):72-72.
10王铁毅,史沛柱.科学组织，强化协调，稳步推进Y2K问题的解决[J].冶金自动化信息,1999(5):34-36.

农机化研究

2008年第10期

浏览历史

内容加载中请稍等...

基于Internet的农业信息资源采集系统

参考文献5

二级参考文献29

共引文献49

相关作者

相关机构

相关主题

浏览历史