摘要
利用正则表达式在字符串操作上的优势,实现从不规则含噪页面中对油价事件信息的抓取,指出实现中的难点要点,并验证正则表达式在字符串处理中强大的结构描述能力。
With the advantages of regular expression in string manipulation, this paper realizes extraction of oil price information from noisy and irregular Webpages. Points of importance and difficulty in realization are pointed out, and the structural description ability of regular expression in string manipulation is testified.
出处
《现代图书情报技术》
CSSCI
北大核心
2009年第2期83-88,共6页
New Technology of Library and Information Service
基金
"十一五"国家科技支撑计划项目"国外矿产资源开发利用风险评价技术研究"(项目编号:2006BAB08B01)的研究成果之一
关键词
正则表达式
网页数据抓取
数据清洗
字符串处理
Regular Expression Webpage Data Extraction Data Cleaning String Processiong