一种软/硬模板相结合的定义抽取算法被引量：4

A Definition Extraction Algorithm Combining Hard Pattern Matching and Soft Pattern Matching

下载PDF

导出

摘要术语定义抽取是信息抽取研究领域的重要内容之一。文中提出了一种结合硬模板匹配和软模板匹配技术的综合术语定义自动抽取方法。文中首先使用硬模板库对待抽取文本进行了初步的定义句匹配抽取。接着,通过使用基于N元语言模型的软模板匹配模型来计算待匹配文本中每个句子与软模板之间的匹配度,并通过设定匹配得分阈值来抽取定义句或过滤掉错误召回的非定义句。实验结果表明文中的术语定义抽取方法远远优于单纯的硬模板匹配或软模板匹配方法。 Definition extraction is an important topic in the field of information extraction. It proposes a definition extraction method based on both hard pattern matching and soft pattern matching. Firstly, conduct hard matching on candidate sentences and hard patterns. Secondly, n-gram based soft pattern matching model is used to get a matching score between the candidate sentence and the soft pattern. In the second step, an upper threshold is set to recall candidate sentences with a high matching score;A lower threshold is used to rule out some wrongly-recalled sentences by hard matching. The experimental results show that the proposed definition extraction method is far superior to both pure hard pattern matching and soft pattern matching method.

作者钱菲袁春风

机构地区南京大学计算机科学与技术系

出处《计算机技术与发展》 2012年第9期32-36,共5页 Computer Technology and Development

基金国家自然科学基金资助项目(61072152 61021062)

关键词定义抽取硬模板匹配软模板匹配 N元语言模型词类格 definition extraction hard pattern matching soft pattern matching N-gram language model word class lattice

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009,46(1):62-69. 被引量：12
2张艳,宗成庆,徐波.汉语术语定义的结构分析和提取[J].中文信息学报,2003,17(6):9-16. 被引量：23
3张榕,宋柔.一种被定义项的识别策略[J].当代语言学,2007,9(1):33-38. 被引量：4
4贾爱平..科技文献中术语定义的语言模式研究[D].北京语言大学,2002:
5陈议..开放域的自动问答系统的研究[D].重庆大学,2006:

二级参考文献26

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2冯志伟.术语定义的原则和方法.中国术语网通讯,1994,. 被引量：1
3刘悦耕.术语标准中的定义.自然科学术语研究,1990,. 被引量：1
4黄鸿森.百科全书编纂求索[M].北京:中国大百科全书出版社,1993.. 被引量：1
5Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms: The C-value/NC-value method [J]. International Journal on Digital Libraries, 2000, 3(2): 115- 130 被引量：1
6Justeson J, Katz S. Technical terminology: Some linguistic properties and an algorithm for identification in text [J]. Natural Language Engineering, 1995, 1(1): 9-27 被引量：1
7Maynard D, Ananiadou S. Identifying terms by their family and friends [C] //Proc of the 18th Int Conf on Computational Linguistics (COLING). Morristown, N J: ACI., 2000: 530- 536 被引量：1
8Wermter J, Hahn U. Paradigmatic modifiability statistics for the extraction of complex multi-word terms [C] //Proc of the 5th Human Language Technology Conference and 2005 Conf on Empirical Methods in Natural Language Processing. Morristown, NJ: ACL, 2005:843-850 被引量：1
9Argamon S, Dagan I, Krymolowski Yuval. A memory-based approach to learning shallow natural language patterns [C] // Proc of the 17th COLING and the 36th Annual Meeting of ACL. Morristown, NJ: ACI., 1999: 67-73 被引量：1
10Xun E, Ge S, Zhang R. Internet based Chinese term definition extraction research [C] //Proc of the 3rd Int Conf on Terminology, Standardization and Technology Transfer (TSTT'2006). Beijing: Encyclopedia of China Publishing House. 2006:382-389 被引量：1

共引文献32

1许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
2薛永增,杨沐昀,赵铁军,韩习武,齐浩亮.面向体育领域的句子主干翻译技术研究[J].中文信息学报,2005,19(5):24-30. 被引量：1
3董仁忠.职业教育制度:语用分析及其界定[J].职教论坛,2007,23(02S):7-11. 被引量：5
4梁志,赵祥刚.高等职业教育的概念解析及其内涵的厘定[J].山东师范大学学报（人文社会科学版）,2008(1):88-91. 被引量：16
5魏顺平,何克抗.基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J].开放教育研究,2008,14(5):95-101. 被引量：14
6黄云,张中义,黄丽丽,王中康,肖崇刚.植物病害的定义刍议、利弊分析及综合控制[J].植物保护,2009,35(1):97-101. 被引量：8
7荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009,46(1):62-69. 被引量：12
8孙勤红,朱颖文.正则表达式在计算机类教材知识点提取的应用[J].计算机与现代化,2009(7):110-112. 被引量：4
9贾美英,杨炳儒,郑德权,杨靖.采用CRF技术的军事情报术语自动抽取研究[J].计算机工程与应用,2009,45(32):126-129. 被引量：16
10丁向民,顾宏斌.基于本体的中文多项选择题自动生成技术研究[J].计算机工程与设计,2010,31(6):1397-1400. 被引量：4

同被引文献30

1张榕,宋柔.术语定义提取研究[J].术语标准化与信息技术,2006(1):29-32. 被引量：8
2荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009,46(1):62-69. 被引量：12
3张运良,梁健,朱礼军,乔晓东.基于术语定义的科技知识组织系统自动丰富关键技术研究[J].现代图书情报技术,2010(7):66-71. 被引量：9
4潘湑,顾宏斌.采用改进重采样和BRF方法的定义抽取研究[J].中文信息学报,2011,25(3):30-37. 被引量：7
5李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011,38(B10):185-188. 被引量：48
6田金凤,曾新红,黄华军,林伟明.中文叙词表本体概念定义注释的自动构建研究[J].现代图书情报技术,2011(11):9-16. 被引量：2
7刘一宁,郑彦宁,化柏林.学术定义抽取系统实现及实验分析[J].情报理论与实践,2011,34(12):15-19. 被引量：8
8潘湑,顾宏斌,赵芷晴.术语定义抽取的特征选择框架[J].南京航空航天大学学报,2012,44(3):399-404. 被引量：1
9李元杰,曹健,胡亮.基于自动语义标注和集成学习的Web服务分类[J].小型微型计算机系统,2013,34(1):23-28. 被引量：3
10胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23

引证文献4

1于洁.基于Spark和DN-gram模型的定义抽取研究[J].北京信息科技大学学报（自然科学版）,2017,32(4):64-68. 被引量：2
2于洁.互联网定义挖掘:多特征N-gram Plus分类方法[J].海南师范大学学报（自然科学版）,2017,30(3):253-260.
3阳萍,谢志鹏.基于BiLSTM模型的定义抽取方法[J].计算机工程,2020,46(3):40-45. 被引量：9
4刘德喜,陈雨婕,刘宇星,狄国强,邱宝林,廖国琼.计算机系统类课程群概念图自动构建研究[J].软件导刊,2023,22(6):13-19. 被引量：2

二级引证文献13

1如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究,2019,36(11):3410-3414. 被引量：5
2谢琦,陈芑伊,李雅婷.基于双向长短时记忆网络的产品画像构建研究[J].信息与电脑,2019,31(22):22-23.
3阳萍,谢志鹏.基于BiLSTM模型的定义抽取方法[J].计算机工程,2020,46(3):40-45. 被引量：9
4胡志刚,章成志.悄然兴起的全文计量分析[J].图书馆论坛,2021,41(3):1-11. 被引量：15
5邬少飞.互联网公开专利情报挖掘研究综述[J].武汉工程大学学报,2021,43(3):349-354.
6菊花,那顺乌日图.基于数据库的专业术语知识图谱自动识别设计[J].现代电子技术,2021,44(14):129-132.
7马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
8徐健,刘政,桂思思,何琳.领域学术观点库构建关键问题研究[J].情报理论与实践,2021,44(12):158-164. 被引量：2
9徐健,郭语凡,喻雪寒,黄雨馨,杨婷婷,王唯一,刘政.学术论断句标注与识别方法探索[J].情报学报,2022,41(7):707-719. 被引量：4
10张晓明,郑理欣,王会勇.基于图排序和最大信息增益的领域实体抽取方法[J].计算机工程,2022,48(12):140-149. 被引量：6

1张淑征,陈明锐,许斌,钟东来,佟明川.基于句法分析的文本定义抽取方法[J].海南大学学报（自然科学版）,2016,34(2):105-111. 被引量：2
2张榕,宋柔.术语定义提取研究[J].术语标准化与信息技术,2006(1):29-32. 被引量：8
3潘湑,顾宏斌.采用改进重采样和BRF方法的定义抽取研究[J].中文信息学报,2011,25(3):30-37. 被引量：7
4周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
5张树武,黄泰翼.汉语统计语言模型的N值分析[J].中文信息学报,1998,12(1):35-41. 被引量：8
6基于N-gram的维吾尔弹词字母结构分析[J].新疆大学学报（哲学社会科学版）（维吾尔文）,2012,33(2):52-61.
7董广宇,吕学强,王涛,施水才.基于N-gram语言模型的汉字识别后处理研究[J].微计算机信息,2009,25(10):276-278. 被引量：5
8夏玉果,顾明亮.基于聚类支持矢量机的汉语方言辨识[J].计算机与数字工程,2012,40(5):15-17.
9张运良,梁健,朱礼军,乔晓东.基于术语定义的科技知识组织系统自动丰富关键技术研究[J].现代图书情报技术,2010(7):66-71. 被引量：9
10欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究[J].计算机工程与应用,2000,36(8):80-82. 被引量：20

计算机技术与发展

2012年第9期

浏览历史

内容加载中请稍等...

一种软/硬模板相结合的定义抽取算法被引量：4

参考文献5

二级参考文献26

共引文献32

同被引文献30

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种软/硬模板相结合的定义抽取算法 被引量：4

参考文献5

二级参考文献26

共引文献32

同被引文献30

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种软/硬模板相结合的定义抽取算法被引量：4