基于Tri-training半监督学习的中文组织机构名识别被引量：4

Chinese organization names recognition with Tri-training learning

下载PDF

导出

摘要针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。 In view of the data scarcity problem in for Chinese organization names recognition, this paper presented a co-training style method for Organization Names Recognition. And proposed a novel selection method for Tri-training learning, using three classifiers： CRFs, SVMs and MBL. In Tri-training process, selected new newly labeled samples based on the selection model maximizing training utility, and computed the agreement according to the agreement scoring function. Experiments on large-scale corpus show that the proposed Tri-training learning approach can more effectively and stably exploit unlabeled data to improve the generalization ability than co-training and the standard Tri-training.

作者蔡月红朱倩程显毅

机构地区江苏大学计算机科学与通信工程学院江苏大学外语学习中心

出处《计算机应用研究》 CSCD 北大核心 2010年第1期193-195,共3页 Application Research of Computers

基金国家自然科学基金资助项目(60702056)

关键词中文组织机构名半监督学习协同训练 Tri—training Chinese organization name recognition semi-supervised learning co-training Tri-training

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：80
2WANG Hou-feng, SHI Wu-guang. A simple rule-based approach to organization name recognition in Chinese text [ C]//Proc of the 6th CICLing. Heidelberg: Springer-Verlag, 2005: 769-772. 被引量：1
3郑家恒,张辉.基于HMM的中国组织机构名自动识别[J].计算机应用,2002,22(11):1-2. 被引量：18
4冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：19
7ZHOU Zhi-hua, LI Ming. Tri-training: exploiting unlabeled data using three classifiers [ J ]. IEEE Trans on Knowledge and Data Engineering, 2005,17(11) :1529-1541. 被引量：1
8STEEDMAN M, HWA R, CLARK S, et al. Example selection for bootstrapping statistical parsers[ C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton: Canada Association for Computational Linguistics, 2003 : 157-164. 被引量：1
9PHAM T P, NG H T, LEE W S. Word sense disambiguation with semi-supervised learning [ C ]//Proc of the 20th National Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2005: 1093- 1098. 被引量：1

二级参考文献50

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
3冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
4张小衡.从“qinghuadaxue”谈起逐步实现中文智能输入[J].中文信息,1996,13(5):3-5. 被引量：1
5张茂松，中文信息学报，1995年，9卷，2期，16页被引量：1
6沈达阳，计算语言学进展与应用，1995年，68页被引量：1
7陈光磊，汉语词法论，1994年，27页被引量：1
8陆丙甫，核心推导语法，1993年被引量：1
9郑家恒，计算语言学进展与应用，1993年，139页被引量：1
10匿名著者，语言文字规范手册，1993年，293页被引量：1

共引文献194

1姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
5罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：7
8冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
9蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
10车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5

同被引文献31

1于海滨,秦兵,刘挺,郎君.命名实体识别和指代消解在文摘系统中的应用[J].计算机应用研究,2006,23(4):180-182. 被引量：7
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
3尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
4俞鸿魁, 张华平, 刘群.基于角色标注的中文机构名识别[C]//Proc.of the 20th International Conference on Computer Processing of Oriental Languages.Shenyang, China: [s.n.], 2003. 被引量：2
5金朝,蒋宗礼.中文机构名的识别讨论[C].见:高等职业教育电子信息类专业学术暨教学研讨会论文集.2011. 被引量：1
6Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling SequenceData[C]. In: Proceedings of the 18th International Conferenceon Machine Learning. San Francisco: Morgan KaufmannPublishers Inc., 2001 : 282-289. 被引量：1
7Sutton C, McCallum A, Rohanimanesh K. Dynamic Con-ditional Random Fields: Factorized Probabilistic Models forLabeling and Segmenting Sequence Data[J]. The Journal ofMachine Learning Research,2007,8: 693-723. 被引量：1
8沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：32
9于江德,樊孝忠,庞文博.事件信息抽取中语义角色标注研究[J].计算机科学,2008,35(3):155-157. 被引量：8
10张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：80

引证文献4

1孙晓燕,乔娅利.基于迁移与半监督共生融合的虚假评论识别[J].南京大学学报（自然科学版）,2022,58(5):846-855.
2关晓炟,吕学强,李卓,郑略省.用户查询日志中的中文机构名识别[J].现代图书情报技术,2014(1):72-78. 被引量：4
3刘艳超,郭剑毅,余正涛,周兰江,严馨,陈秀琴.融合实体特性识别越南语复杂命名实体的混合方法[J].智能系统学报,2016,11(4):503-512. 被引量：3
4刘一鸣.基于半监督学习的命名实体识别的方法[J].数字技术与应用,2020,38(1):207-208. 被引量：1

二级引证文献8

1李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：28
2朱丹浩,杨蕾,王东波.基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J].现代图书情报技术,2016(12):36-43. 被引量：22
3王吉地,郭军军,黄于欣,高盛祥,余正涛,张亚飞.融合依存信息和卷积神经网络的越南语新闻事件检测[J].南京大学学报（自然科学版）,2020,56(1):125-131. 被引量：1
4王旭强,岳顺民,张亚行,刘杰,王扬,杨青.基于注意力机制的特征融合序列标注模型[J].山东科技大学学报（自然科学版）,2020,39(5):79-88. 被引量：1
5余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：16
6余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
7杨祎,崔其会,丁奕齐.面向电网设备故障报告的半监督命名实体识别方法[J].计算机应用,2021,41(S02):41-47. 被引量：8
8李源,蔡忠祥,李娜,黄子鸣.基于CiteSpace的国内命名实体识别技术的知识图谱分析[J].现代信息科技,2024,8(15):124-128.

1冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
2冯丽萍,焦莉娟.结合多特征的支持向量机中文组织机构名识别模型[J].现代计算机,2010,16(7):24-27. 被引量：2
3鲁松,白硕.基于记忆学习方法在自然语言处理中的应用[J].计算机科学,2001,28(6):81-84.
4周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
5徐驰,徐燕凌.基于对象语义的图像分割和分类方法[J].重庆大学学报（自然科学版）,2006,29(8):98-101.
6刘丽娟,郑逢斌,郭珊珊,刘定一.基于神经网络的角色层次访问控制策略的研究[J].光盘技术,2008(8):33-34.
7马志伟,崔荣一,金小峰.基于半监督学习的行人检测方法研究[J].软件,2012,33(6):23-26. 被引量：1
8张汝波,王兢,孙世良.具有环境自适应能力的多机器人编队系统研究[J].机器人,2004,26(1):69-73. 被引量：8
9张博锋,白冰,苏金树.基于自训练EM算法的半监督文本分类[J].国防科技大学学报,2007,29(6):65-69. 被引量：17
10周刚,黄咏芳,张德存,许广山.一种基于RBF神经网络优化算法在入侵检测中的应用[J].山东师范大学学报（自然科学版）,2013,28(2):33-36.

计算机应用研究

2010年第1期

浏览历史

内容加载中请稍等...

基于Tri-training半监督学习的中文组织机构名识别被引量：4

参考文献9

二级参考文献50

共引文献194

同被引文献31

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Tri-training半监督学习的中文组织机构名识别 被引量：4

参考文献9

二级参考文献50

共引文献194

同被引文献31

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Tri-training半监督学习的中文组织机构名识别被引量：4