-
题名采用树自动机推理技术的信息抽取方法
被引量:2
- 1
-
-
作者
谭鹏许
张来顺
-
机构
解放军信息工程大学电子技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第16期153-156,共4页
-
文摘
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。
-
关键词
树自动机推理算法
结构化(半结构化)文档
无秩树自动机
信息抽取
KLH树
-
Keywords
tree automata inference algorithm
(semi-)structured documents
unranked tree automata
information extraction
KLH tree language
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于无秩树自动机的信息抽取技术研究
被引量:1
- 2
-
-
作者
谭鹏许
谭晓贞
张来顺
-
机构
解放军信息工程大学电子技术学院
海军司令部航空管制处
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第23期5506-5509,共4页
-
文摘
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取。该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。
-
关键词
无秩树自动机
信息抽取
结构(半结构)化文档
(k
l)-contextual树
文法推理
-
Keywords
unranked tree automata
information extraction
(semi-) structured documents
(k
l)-contextual tree language
grammar inference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-