摘要
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的“硬编码”,而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围.
With the help of research achievements home and abroad, an open Web information extraction system is given here based on the structure of Web information. The extraction rule of this system is not “hard encoding”, but is deduced from its automatic learning with users' necessary adjusting. As a result, the system can be widely used.
出处
《北京师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2005年第6期594-598,共5页
Journal of Beijing Normal University(Natural Science)
基金
北京师范大学青年教师基金项目
关键词
WEB信息抽取
算法归纳
聚类
Web information extraction
wrapper induction
clustering