中文组织机构名称与简称的识别被引量：32

Recognition of Chinese Organization Names and Abbreviations

下载PDF

导出

摘要本文提出了一种基于规则识别中文组织机构全称和简称的方法。全称的识别首先借助机构后缀词库获得其右边界,然后通过规则匹配并借助贝叶斯概率模型加以决策获得其左边界。简称的识别是在全称的基础上应用其对应的简称规则实现的。在开放性测试中,该方法的总体查全率为85.19%,查准率为83.03%,F Measure为84.10%;简称的查全率为67.18%,查准率为74.14%。目前该方法已应用于中文关系的抽取系统。 This paper proposes a method for recognizing Chinese organization names and their abbreviations based on rules. The right boundary of an organization name is identified with the help of the organization suffix lexicon. The left boundary is recognized by the optimum rules based on Bayesian probability model. After idendifying an organization name, we can get candidate abbreviations based on abbreviation rules accordingly. In open test, the recall is 85.19%, the precision is 83.03%, the F Measure is 84.10% for name recognition, and the recall is 67.18%, the precision is 74.14 % for abbreviation recognition. This method has been applied in the Chinese relation identification system.

作者沈嘉懿李芳徐飞玉 Hans Uszkoreit

机构地区上海交通大学计算机系德国人工智能研究中心语言技术实验室

出处《中文信息学报》 CSCD 北大核心 2007年第6期17-21,共5页 Journal of Chinese Information Processing

基金上海市科委(045107035) 德方的赞助

关键词计算机应用中文信息处理组织机构名称识别组织机构简称识别规则匹配贝叶斯概率模型 computer application Chinese information processing recognition of Chinese organization names recognition of Chinese organization abbreviations rule matching bayesian probability model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
2黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49
3张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：84
4王宁,葛瑞芳,苑春法,黄锦辉,李文捷.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6. 被引量：51
5Erik Peterson. A Chinese Named Entity Extraction System[J].http://epsilon3. georgetown. edu/petersee/Chinesee.html, 1999. 被引量：1
6GATE使用手册[EB].http://gate.ac.uk 被引量：2
7Kebin Liu, Fang Li, et al. Embedding the semantic knowledge in convolution kernels[J]. In: the proceeding of 2^nd International conference on Semantics, Knowledge and Grid (SKG 2006), Nov. 2006. 被引量：1
8http://gate. ac. uko 被引量：1

二级参考文献18

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2张小衡.从“qinghuadaxue”谈起逐步实现中文智能输入[J].中文信息,1996,13(5):3-5. 被引量：1
3沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995.. 被引量：2
4张茂松，中文信息学报，1995年，9卷，2期，16页被引量：1
5沈达阳，计算语言学进展与应用，1995年，68页被引量：1
6陈光磊，汉语词法论，1994年，27页被引量：1
7陆丙甫，核心推导语法，1993年被引量：1
8郑家恒，计算语言学进展与应用，1993年，139页被引量：1
9匿名著者，语言文字规范手册，1993年，293页被引量：1
10范晓，汉语的短语，1991年，48页被引量：1

共引文献202

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：12
2姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
5张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
6王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10熊英,朱杰,孙静.A Semi-automatic Method Based on Statistic for Mandarin Semantic Structures Extraction in Specific Domains[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):25-29. 被引量：1

同被引文献260

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3王保树.股份公司组织机构的法的实态考察与立法课题[J].法学研究,1998,20(2):43-58. 被引量：76
4马庆株.缩略语的性质、语法功能和运用[J].语言教学与研究,1987(3):20-27. 被引量：26
5柳传志.复盘:最好的学习方式[J].新远见,2013,0(7):59-61. 被引量：4
6王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
7王厚峰.汉语篇章的指代消解浅论[J].语言文字应用,2004(4):113-119. 被引量：13
8单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：205
9车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：117
10周伟涛,许婷,张海涛,张书亮.跨平台互操作的地图注记对象的设计与实现[J].测绘信息与工程,2005,30(3):28-29. 被引量：2

引证文献32

1帅训波,马书南.基于决策树的现代汉语中任职关系抽取研究[J].昆明理工大学学报（理工版）,2009,34(4):27-31.
2李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
3陈超,朱洪波,王亚强,韩国辉,谭斌,于中华.中文财经文本中公司名简称的自动识别[J].四川大学学报（自然科学版）,2011,48(2):308-314. 被引量：3
4尹驰东,黄生叶,鄂智丰.寻路算法在中文金融机构名匹配中的应用[J].计算技术与自动化,2011,30(2):83-88.
5赵洁,刘彦宏,金培权.基于互联网的商业机构名识别研究[J].情报学报,2011,30(8):851-860. 被引量：1
6王厚峰.汉语缩略语自动处理研究现状[J].中文信息学报,2011,25(5):60-67. 被引量：7
7钱哲怡,李芳.基于关键词和命名实体识别的新闻话题线索抽取[J].计算机应用与软件,2011,28(12):168-171. 被引量：4
8李静,罗文华,林鸿飞.自然语言处理技术在网络案情分析系统中的应用[J].计算机工程与应用,2012,48(3):216-220. 被引量：5
9王志礼,刘维,王培.一种兴趣点名称简称的抽取方法的实现[J].科技成果管理与研究,2012(3):62-66.
10乐娟,赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013,39(6):266-271. 被引量：18

二级引证文献138

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2耿国桐,卢胜军,雷帅,汤珊红,赵柯然,杨湘云.人工智能赋能情报研究的变革与发展[J].情报学进展,2024(1):278-317.
3宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
4姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
5陈黎,于中华,王亚强,秦湘清.基于登录词邻接关系的双条件概率的领域术语抽取算法[J].四川大学学报（自然科学版）,2011,48(6):1300-1306. 被引量：2
6焦妍,王厚峰,张龙凯.基于条件随机场与Web数据的缩略语预测[J].中文信息学报,2012,26(2):62-68. 被引量：3
7高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1
8胡大可,季燕飞.应用MSP430微控制器时需注意的问题[J].电子产品世界,2000,7(3):63-63. 被引量：9
9陈祥,洪福金,张贤坤.基于案例推理的网络舆情辅助决策系统研究[J].计算机与现代化,2012(6):13-16. 被引量：8
10卞建民,林年丰,汤洁.吉林西部乾安县土地荒漠化研究[J].长春科技大学学报,2000,30(2):177-179. 被引量：7

1李玉勤,高理锦,陈福集.临床计算机辅助诊断[J].合肥工业大学学报（社会科学版）,1994,8(1):171-174.
2赵春晖,齐滨,张燚.基于改进型相关向量机的高光谱图像分类[J].光学学报,2012,32(8):256-261. 被引量：15
3Fruit芋.Foxmail巧反垃圾邮件[J].电脑迷,2006,0(3):74-74.
4谢海林,裴卫军,刘爱平,王稳平.具有随机化输入的贝叶斯概率模型[J].空军预警学院学报,2016,30(3):191-193.
5《梦幻迪士尼》开放性测试前瞻:丰富多样的3D魔法战斗[J].电脑爱好者,2009(18):117-117.
6张龙媛,陈莹.贝叶斯模型下基于SIFT特征的人脸识别[J].计算机工程,2012,38(12):125-128. 被引量：2
7刘明川,彭长生.基于贝叶斯概率模型的邮件过滤算法探讨[J].重庆邮电学院学报（自然科学版）,2005,17(5):636-639. 被引量：10
8李元沉,何路,王爽,刘志千.组织机构名称简称与全称的自动识别研究初探[J].标准科学,2014(8):82-86. 被引量：2
9刘付勇,高贤强,张著.基于改进贝叶斯概率模型的推荐算法[J].计算机科学,2017,44(5):285-289. 被引量：8
10刘萍萍,闫谦时,闪志强.综合邮件过滤系统在PDM中的应用研究[J].航空计算技术,2008,38(4):97-99.

中文信息学报

2007年第6期

浏览历史

内容加载中请稍等...

中文组织机构名称与简称的识别被引量：32

参考文献8

二级参考文献18

共引文献202

同被引文献260

引证文献32

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

中文组织机构名称与简称的识别 被引量：32

参考文献8

二级参考文献18

共引文献202

同被引文献260

引证文献32

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

中文组织机构名称与简称的识别被引量：32