期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于无秩树自动机的信息抽取技术研究 被引量:1
1
作者 谭鹏许 谭晓贞 张来顺 《计算机工程与设计》 CSCD 北大核心 2009年第23期5506-5509,共4页
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据... 针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取。该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。 展开更多
关键词 无秩树自动机 信息抽取 结构(半结构)化文档 (k l)-contextual 文法推理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部