中文口语理解弱监督训练方法被引量：2

Weakly-supervised training method about Chinese spoken language understanding

下载PDF

导出

摘要标注数据的获取一直是有监督方法需要面临的一个难题,针对中文口语理解任务中的意图识别研究了结合主动学习和自训练、协同训练两种弱监督训练方法,提出在级联框架下,从关键语义概念识别中获取语义类特征子集和句子本身的字特征子集分别作为两个"视角"的特征进行协同训练。通过在中文口语语料上进行的实验表明:结合主动学习和自训练的方法与被动学习、主动学习相比较,可以最大限度地降低人工标注量;而协同训练在很少的初始标注数据的前提下,利用两个特征子集进行协同训练,最终使得单一字特征子集上的分类错误率平均下降了0.52%。 Annotated corpus acquisition is a difficult problem in supervised approach. Aiming at the intention recognition task of Chinese spoken language understanding, two weakly supervised training approaches were studied. One is combining active learning with self-training, the other is co-training. A new method of acquiring two independent feature sets as two views for co-training was proposed based on spoken language understanding data in cascade frame. The two feature sets were character features of sentence and semantic class features obtained from key semantic concept recognition task. The experimental results on Chinese spoken language corpus show that the method combining active learning with self-training can minimize manual annotation compared with passive learning and active learning. Furthermore, under the premise of a few initial annotation data, co-training based on two feature sets can make the classification error rate fall in an average of 0.52% with single character feature set.

作者李艳玲颜永红

机构地区内蒙古师范大学计算机与信息工程学院中国科学院语言声学与内容理解重点实验室(中国科学院声学研究所)

出处《计算机应用》 CSCD 北大核心 2015年第7期1965-1968,1974,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(10925419 90920302 61072124 11074275 11161140319 91120001 61271426) 中国科学院战略性先导科技专项(XDA06030100 XDA06030500) 国家863计划项目(2012AA012503) 中国科学院重点部署项目(KGZD-EW-103-2) 内蒙古师范大学"十百千"人才培养工程项目内蒙古自然科学基金面上项目(2012MS0930 2013MS0912) 内蒙古自治区高等学校科学研究项目(NJZY12032 NJZY028) 内蒙古师范大学引进高层次人才科研启动经费项目(2014YJRC036)

关键词意图识别口语理解弱监督训练协同训练主动学习 intention recognition spoken language understanding weakly-supervised training co-training active learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献17

1TORRESANI L. Weakly supervised learning [M]// Computer Vi-sion: A Reference Guide. Berlin: Springer, 2014: 883-885. 被引量：1
2TUR G, HAKKANI-TüR D, SCHAPIRE R. Combining active and semi-supervised learning for spoken language understanding [J]. Speech Communication, 2005, 45(2): 171-186. 被引量：1
3刘康,钱旭,王自强.主动学习算法综述[J].计算机工程与应用,2012,48(34):1-4. 被引量：26
4TSUTAOKA T, SHINODA K. Acoustic model training using committee-based active and semi-supervised learning for speech recognition [C]// APSIPA ASC 2012: 2012 Asia-Pacific Signal & Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2012: 1-4. 被引量：1
5赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
6VIJAYALAKSHMI T, THUTHI SARABAI D. Aspect based topic and opinion mining [J]. International Journal of Computer Trends and Technology, 2014, 15(4): 168-173. 被引量：1
7da SILVA A T, FALC?O A X, MAGALH?ES L P. Active learning paradigms for CBIR systems based on optimum-path forest classification [J]. Pattern Recognition, 2011, 44(12): 2971-2978. 被引量：1
8姚拓中..结合主动学习的视觉场景理解[D].浙江大学,2011:
9SHAHSHAHANI B, LANDGREBE D. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon [J]. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5):1087-1095. 被引量：1
10NIGAM K, McCALLUM A K, THRUN S, et al. Text classification from labeled and unlabeled documents using EM [J]. Machine Learning, 2000, 39(2/3): 103-134. 被引量：1

二级参考文献37

1Settles B. Active Learning Literature Survey, Computer Science Technical Report 1648, University of Wisconsin- Madison, USA, 2009. 3-4. 被引量：1
2Dasgupta S. Coarse sample complexity bounds for active learning. Advances in Neural Information Processing Sys- tems. Cambridge: The MIT Press, 2006. 235-242. 被引量：1
3Tong S, Chang E. Support vector machine active learning for image retrieval. In: Proceedings of the 9th ACM Inter- national Conference on Multimedia. New York, USA: ACM, 2001. 107-118. 被引量：1
4Tong S, Koller D. Support vector machine active learning with applications to text classification. The Journal of Ma- chine Learning Research, 2002, 2:45-66. 被引量：1
5Seung H S, Opper M, Sompolinsky H. Query by commit- tee. In: Proceedings of the 5th Annual Workshop on Com- putational Learning Theory. New York, USA: ACM, 1992. 287-294. 被引量：1
6Dagan I, Engelson S P. Committee-based sampling for train- ing probabilistic classifiers. In: Proceedings of the 12th International Conference on Machine Learning. California, USA: Morgan Kaufmann, 1995. 150-157. 被引量：1
7Hoi S C H, Jin R, Lyu M R. Batch mode active learning with applications to text categorization and image retrieval. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1233-1248. 被引量：1
8Joshi A J, Porikli F, Papanikolopoulos N. Multi-class ac- tive learning for image classification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recog- nition. Miami, USA: IEEE, 2009. 2372-2379. 被引量：1
9Zhu X J. Semi-supervised Learning Literature Survey, Computer Sciences Technical Report 1530, University of Wisconsin-Madison. USA. 2008. 11-13. 被引量：1
10Riloff E, Wiebe J, Wilson T. Learning subjective nouns using extraction pattern bootstrapping. In: Proceedings of the 7th Conference on Natural Language Learning. Stroudsburg, USA: Association for Computational Linguis- tics, 2003. 25-32. 被引量：1

共引文献120

1刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
2张颖,王琳,王丽华,王飞,张苗.基于最小二乘法和聚类的用电数据异常分析算法[J].河北电力技术,2019,0(5):4-6. 被引量：3
3曹健,陈红倩,毛典辉,李海生,蔡强.基于局部特征的图像目标识别问题综述[J].中南大学学报（自然科学版）,2013,44(S2):258-262. 被引量：14
4赵丰丰.美国《化学文摘》近年的变化[J].医学情报工作,2000,21(2):45-47. 被引量：3
5黄扬帆,张慧敏,徐子航,曹鹏程.超球体支持向量机的不完全二叉树多类分类算法[J].重庆大学学报（自然科学版）,2012,35(6):125-128. 被引量：5
6张建朋,陈福才.基于仿射聚类的主动SVM多类分类方法[J].计算机应用研究,2012,29(9):3316-3319.
7张雁,吴保国,王冬.遥感影像分类方法研究动态[J].安徽农业科学,2012,40(28):14107-14110. 被引量：4
8曹健,李海生,蔡强,郭世龙.图像目标的特征提取技术研究[J].计算机仿真,2013,30(1):409-414. 被引量：32
9芦世丹,崔荣一.基于主动学习策略的半监督聚类算法研究[J].计算机应用研究,2013,30(6):1718-1720. 被引量：1
10张桂平,李文博,王裴岩.基于主动学习的本体概念关系判断[J].中文信息学报,2013,27(4):37-43. 被引量：1

同被引文献13

1胡运发,葛家翔,于玉,蒋瓅,朱立,刘耀东,钱放.图书馆智能化管理与决策支持系LIMDS[J].计算机工程,1996,22(S1):340-346. 被引量：5
2牛亚真,祝忠明.个性化服务中关联数据驱动的用户语义建模框架[J].现代图书情报技术,2012(10):1-7. 被引量：4
3成全,许爽.馆藏数字资源语义关联研究现状及发展趋势探析[J].图书馆建设,2014(4):28-33. 被引量：5
4韦绍芬.基于关联聚合的数字图书馆社区集成知识推送服务模式研究[J].图书馆学刊,2018,40(11):116-119. 被引量：2
5张玉峰,曾奕棠.语义环境下馆藏资源深度聚合结果可视化框架研究[J].图书情报知识,2014,31(5):65-71. 被引量：12
6尹长余,毕强,王传清.语义标注工具的特征分析及其适用性研究[J].情报理论与实践,2014,37(12):111-116. 被引量：3
7赵小荣,何胜,钱进,柳益君,钱秀芳.基于语义网技术的高校图书馆个性化知识服务研究[J].新世纪图书馆,2017(11):49-52. 被引量：1
8余慧,冯旭鹏,刘利军,黄青松.聊天机器人中用户就医意图识别方法[J].计算机应用,2018,38(8):2170-2174. 被引量：9
9杨春妮,冯朝胜.结合句法特征和卷积神经网络的多意图识别模型[J].计算机应用,2018,38(7):1839-1845. 被引量：11
10李艳玲,颜永红.统计中文口语理解执行策略的研究[J].计算机科学与探索,2017,11(6):980-987. 被引量：5

引证文献2

1刘娇,李艳玲,林民.人机对话系统中意图识别方法综述[J].计算机工程与应用,2019,55(12):1-7. 被引量：27
2姜育彦,李雅茹.基于馆藏题录分词索引的阅读推广新模式[J].数字与缩微影像,2022(1):37-40.

二级引证文献27

1伍菁.基于DenseNet的无人汽车制动意图识别方法[J].计算机测量与控制,2020,28(6):226-230. 被引量：2
2王堃,林民,李艳玲.端到端对话系统意图语义槽联合识别研究综述[J].计算机工程与应用,2020,56(14):14-25. 被引量：15
3赵鹏飞,李艳玲,林民.面向迁移学习的意图识别研究进展[J].计算机科学与探索,2020,14(8):1261-1274. 被引量：7
4王文广,徐永林,贺梦洁,王子奕,纪达麒.基于知识图谱的通用知识问答系统:体系与方法[J].新一代信息技术,2020,3(7):38-47. 被引量：2
5刘锴,李腾,李赟沣.基于意图识别和自动机理论的任务型聊天机器人的设计[J].信息技术与信息化,2020(9):222-226. 被引量：5
6刘娇,李艳玲,林民.胶囊网络用于短文本多意图识别的研究[J].计算机科学与探索,2020,14(10):1735-1743. 被引量：9
7王丽花,杨文忠,姚苗,王婷,理姗姗.意图识别与语义槽填充的双向关联模型[J].计算机工程与应用,2021,57(3):196-202. 被引量：5
8王博宇,王中卿,周国栋.基于回复生成的对话意图预测[J].计算机科学,2021,48(2):212-216. 被引量：1
9郭宏宇,张卫华,苑津莎,李中.警务危机谈判机器人主动对话方法研究[J].信息与电脑,2021,33(6):149-155.
10胡光敏,姜黎.融合意图列表查询机制的门控槽模型[J].软件导刊,2021,20(9):51-55. 被引量：1

1李艳玲,颜永红.中文口语理解中关键语义类模糊匹配方法的研究[J].小型微型计算机系统,2014,35(9):2182-2186. 被引量：2
2包长春,徐为群,李亚丽,潘接林,颜永红.利用领域信息的基于字的鲁棒中文口语理解研究[J].微计算机应用,2010,31(6):1-7. 被引量：1
3王海,蔡英凤,陈龙,江浩斌.弱监督分层深度学习的车辆识别算法[J].数据采集与处理,2016,31(6):1141-1147. 被引量：1
4Tur,徐为群.口语理解从语音中抽取语义信息的系统[J].国外科技新书评介,2011(10):19-19.
5程露红,黄浩,马平.基于条件随机场的稳健口语理解研究[J].新疆大学学报（自然科学版）,2016,33(1):88-93.
6张蕤,孙甲松.基于逻辑回归的口语理解方法研究[J].信息技术,2016,40(4):92-95.
7赵丹丹,潘新,刘霞,郜晓晶.基于提升小波和深度学习的掌纹识别[J].计算机仿真,2016,33(10):338-342.
8HUNG Chih-Cheng,XIANG Mei,Minh Pham,KUO Bor-Chen,Tommy L. Coleman.基于遗传算法的多光谱影像非监督训练分类系统(英文)[J].遥感学报,2007,11(5):702-709.
9李芳.政府网站信息公开的互动性研究[J].现代视听,2009(4):45-47. 被引量：4
10贾真,冶忠林,尹红风,何大可.基于Tri-training与噪声过滤的弱监督关系抽取[J].中文信息学报,2016,30(4):142-149. 被引量：2

计算机应用

2015年第7期

浏览历史

内容加载中请稍等...

中文口语理解弱监督训练方法被引量：2

参考文献17

二级参考文献37

共引文献120

同被引文献13

引证文献2

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

中文口语理解弱监督训练方法 被引量：2

参考文献17

二级参考文献37

共引文献120

同被引文献13

引证文献2

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

中文口语理解弱监督训练方法被引量：2