基于隐马尔科夫模型的中文术语识别研究被引量：37

Chinese Term Recognition Based on Hidden Markov Model

下载PDF

导出

摘要基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。 After a perceptive analysis of probabilistic characteristics of syntax composition especially P0S matching of Chinese textual information, a system framework for Chinese term recognition and extraction based on dual layer HMM is presented and implemented. The method proposed shows a good performance in the tests with textual information from different domain, and the terms recognized and extracted by the implemented system can be treated as candidate terms for false - eliminating and optimizing combining with parameters of mutual information, log likelihood and domain dependency.

作者岑咏华韩哲季培培

机构地区南京理工大学经济管理学院南京大学信息管理系中国科学院国家科学图书馆中国科学院研究生院

出处《现代图书情报技术》 CSSCI 北大核心 2008年第12期54-58,共5页 New Technology of Library and Information Service

关键词中文术语识别和提取隐马尔科夫 HMM Chinese term recognition Hidden markov model HMM

分类号 H083 [语言文字—语言学]

引文网络
相关文献

参考文献5

1刘建舟..术语自动抽取系统的设计及关键技术研究[D].华中师范大学,2004:
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：155
3贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
4张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112

二级参考文献37

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4Patrick Pantel,Dekang Lin.A Statistical Corpus-based Term Extractor[C].Ottawa, Canada: Lecture Notes in Artificial Intelligence, 2001. 36- 46. 被引量：1
5Shengfen Luo, Maosong Sun. Two-Character Chinese Word Extraction Based on Hybrid of Internal and Contextual Measures[C]. Sapporo, Japan: Proceedings of the 2nd SIGHAN Work Shop on Chinese Language Processing,2003. 24-30. 被引量：1
6Munpyo Hong, Sisay Fissaha, Johann Haller. Hybrid Filtering for Extraction of Term Candidates from German Technical Texts[C].Nancy: Proceedings of Terminology & Artificial Intelligence,2001. 被引量：1
7Diana Maynard, Sophia Ananiadou. Terminological Acquaintance: The Importance of Contextual Information in Terminology [C]. Patras, Greece:Proceedings of NLP 2000 Workshop on Computational Terminology for Medical and Biological Applications,2000. 19-28. 被引量：1
8Thian-Huat Ong, Hsinchun Chen. Updateable PAT-Tree Approach to Chinese Key Phrase Extraction Using Mutual Information: A Linguistic Foundation for Knowledge Management[C]. Taipei, Taiwan:Proceedings of the 2nd Asian Digital Library Conference,1999.63-84. 被引量：1
9罗智勇宋柔.现代汉语自动分词中专名的一体化、快速识别方法[A]..ICCC,Singapore[C].,2001．11.. 被引量：2
10季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统[A].自然语言理解与机器翻译[C].北京:清华大学出版社,2001.123-128. 被引量：1

共引文献292

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
4车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
5常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：15
6周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
7冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
8韦向峰,张全,吴晨,袁毅.中文问答系统中机构名的处理[J].计算机工程与应用,2008,44(7):196-198. 被引量：2
9王昊,苏新宁.基于模式匹配的中文通用本体概念抽取模型[J].情报理论与实践,2008,31(2):292-297. 被引量：6
10李军,王丁,王鑫.基于模板匹配的中文机构名识别[J].信息技术,2008,32(6):97-99. 被引量：4

同被引文献408

1马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：8
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
3方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
4赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432. 被引量：21
5王华树,冷冰冰,崔启亮.信息化时代应用翻译研究体系的再研究[J].上海翻译,2013(1):7-13. 被引量：57
6肖时龙.试论行政机关的居间裁决及其可诉性[J].法学评论,1996,14(6):63-66. 被引量：4
7涂鼎,陈岭,陈根才,吴勇,王敬昌.基于多路层次聚类的商品评论数据概念分类构建[J].计算机研究与发展,2013,50(S2):208-215. 被引量：3
8陈文玲.试论英汉法律术语的不完全对等现象与翻译[J].山东外语教学,2004,25(4):98-101. 被引量：32
9戴光强.医学从技术服务扩大到知识服务─—医学发展的新纪元[J].中国健康教育,1994,10(1):4-6. 被引量：14
10周军锋,汤显,郭景峰.一种优化的协同过滤推荐算法[J].计算机研究与发展,2004,41(10):1842-1847. 被引量：102

引证文献37

1王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
2岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
3季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
4谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
5王成,吕学强,王弘蔚,王涛.基于信息熵与词语活跃度的领域词抽取[J].北京信息科技大学学报（自然科学版）,2011,26(5):49-52. 被引量：1
6陈黎,于中华,王亚强,秦湘清.基于登录词邻接关系的双条件概率的领域术语抽取算法[J].四川大学学报（自然科学版）,2011,48(6):1300-1306. 被引量：2
7祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
8李丽双,党延忠,张婧,李丹.基于条件随机场的汽车领域术语抽取[J].大连理工大学学报,2013,53(2):267-272. 被引量：17
9胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
10张磊,李梦诗,陈黎,黎红友,李志蜀,彭舰.基于双层HHMM的产品评论特征和情感分类[J].四川大学学报（工程科学版）,2013,45(2):94-102. 被引量：3

二级引证文献228

1唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：1
2武丽丽,罗婷婷.大数据智能知识服务平台的典型案例分析及特征研究[J].情报工程,2022,8(4):41-49. 被引量：4
3刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
4周雪晴,张柏瑞,周玜宇.大数据与创新双驱动下的知识服务现状研究[J].人文之友,2019,0(15):94-99.
5李鲲鹏.试论专利权在信息时代的科技信息价值[J].科技创业家,2013(21).
6谷俊,严明,王昊.基于改进关联规则的本体关系获取研究[J].情报理论与实践,2011,34(12):121-125. 被引量：9
7赵蕴华,张静.基于数据挖掘的专利数据预处理系统的设计与实现[J].情报科学,2011,29(12):1851-1855. 被引量：2
8谷俊,朱紫阳.基于聚类算法的本体层次关系获取研究[J].现代图书情报技术,2011(12):46-51. 被引量：6
9谷俊.冶金行业专利本体模型的构建研究[J].情报杂志,2012,31(3):157-162. 被引量：1
10祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16

1任明仑.基于码表和变移哈夫曼编码的中文文本信息压缩方法[J].中文信息,1996,13(1):50-53.
2胡占义,杨长江,马颂德.Hough变换的新定义[J].计算机学报,1997,20(8):744-752. 被引量：11
3张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
4刘岩,张蕾.基于概念图的中文信息自动转化技术研究[J].计算机工程与应用,2008,44(15):151-154. 被引量：3
5何建民,李雪.面向微博舆情演化分析的隐马尔科夫模型研究[J].情报科学,2016,34(4):7-12. 被引量：25
6吴燕.数字水印的白噪声鲁棒性测试[J].电脑知识与技术（过刊）,2010,0(23):6587-6589.
7叶施仁,孙宁.基于概念聚类的领域本体图中文文本分类[J].计算机工程,2016,42(12):181-187. 被引量：2
8孙季丰,智平华.基于特征统计量分析的图像检索[J].计算机工程,2003,29(7):13-14.
9王金庭,杨敏.人脸检测技术研究[J].计算机系统应用,2006,15(4):31-33. 被引量：11
10何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21

现代图书情报技术

2008年第12期

浏览历史

内容加载中请稍等...

基于隐马尔科夫模型的中文术语识别研究被引量：37

参考文献5

二级参考文献37

共引文献292

同被引文献408

引证文献37

二级引证文献228

相关作者

相关机构

相关主题

浏览历史

基于隐马尔科夫模型的中文术语识别研究 被引量：37

参考文献5

二级参考文献37

共引文献292

同被引文献408

引证文献37

二级引证文献228

相关作者

相关机构

相关主题

浏览历史

基于隐马尔科夫模型的中文术语识别研究被引量：37