关于短文本匹配的泛化性和迁移性的研究分析被引量：3

An Empirical Investigation of Generalization and Transfer in Short Text Matching

下载PDF

导出

摘要自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能力,以及如何在新领域中有效地利用现有不同领域中的大量带标注的数据,达到减少新领域的数据标注量和提升性能的目标.为此,重点分析了不同数据集之间的泛化性和迁移性,并且通过可视化的方式展示了影响数据集之间泛化性的因素.具体地,使用深度学习模型ESIM(enhanced sequential inference model)和预训练语言模型BERT(bidirectional encoder representations from transformers)在10个通用的短文本匹配数据集上进行了详尽的实验.通过实验,发现即使是在大规模语料预训练过的BERT,合适的迁移仍能带来性能提升.基于以上的分析,也发现通过在混合数据集预训练过的模型,在新的领域和少量样本情况下,具有较好的泛化能力和迁移能力. Many tasks in natural language understanding,such as natural language inference,question answering,and paraphrasing can be viewed as short text matching problems.Recently,the emergence of a large number of datasets and deep learning models has made great success in short text matching.However,little study has been done on analyzing the generalization of these datasets across different text matching tasks,and how to leverage these supervised datasets of multiple domains to new domains to reduce the cost of annotating and improve their performance.In this paper,we conduct an extensive investigation of generalization and transfer across different datasets and show the factors that affect the generalization through visualization.Specially,we experiment with a conventional neural semantic matching model ESIM(enhanced sequential inference model)and a pre-trained language model BERT(bidirectional encoder representations from transformers)over 10 common datasets.We show that even BERT which is pre-trained on a large-scale dataset can still improve performance on the target dataset through transfer learning.Following our analysis,we also demonstrate that pre-training on multiple datasets shows good generalization and transfer.In the case of a new domain and few-shot setting,BERT which we pre-train on the multiple datasets first and then transfers to new datasets achieves exciting performance.

作者马新宇范意兴郭嘉丰张儒清苏立新程学旗 Ma Xinyu;Fan Yixing;Guo Jiafeng;Zhang Ruqing;Su Lixin;Cheng Xueqi(CAS Key Laboratory of Network Data Science&Technology(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所) 中国科学院大学

出处《计算机研究与发展》 EI CSCD 北大核心 2022年第1期118-126,共9页 Journal of Computer Research and Development

基金国家自然科学基金项目(61722211,61773362,61872338,62006218,61902381) 国家重点研发计划项目(2016QY02D0405) 北京智源人工智能研究院项目(BAAI2019ZD0306) 中国科学院青年创新促进会项目(20144310,2016102) 重庆市基础科学与前沿技术研究专项项目(重点)(cstc2017jcjyBX0059) 王宽诚教育基金会项目联想中科院联合实验室青年科学家项目。

关键词短文本匹配泛化性迁移性少样本预训练语言模型 short text matching generalization transfer few-shot pre-trained language model

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献20

1李柱,时建忠,顾宪红.控制猪氨气排放技术研究进展[J].家畜生态学报,2010,31(5):4-7. 被引量：8
2朱海生,董红敏.猪舍氨气排放预测模型的研究现状[J].农业工程学报,2006,22(S2):187-192. 被引量：10
3张静,刘双红,孙斌.猪场舍内氨气对猪的危害[J].养殖技术顾问,2014(4):26-26. 被引量：14
4张林,钱冠群,樊卫国,华琨,张莉.轻型评论的情感分析研究[J].软件学报,2014,25(12):2790-2807. 被引量：49
5熊蜀峰,姬东鸿.面向产品评论分析的短文本情感主题模型[J].自动化学报,2016,42(8):1227-1237. 被引量：19
6耿红,高芳,陈霖,史利东,周欢,卢铁彦.畜禽源氨气排放因子估算方法研究[J].环境科学学报,2017,37(8):3077-3084. 被引量：9
7李季,王同心,姚卫磊,胡麟,高云,黄飞若.畜禽舍氨气排放规律及对畜禽健康的危害[J].动物营养学报,2017,29(10):3472-3481. 被引量：27
8潘博,张青川,于重重,曹帅.Doc2vec在薪水预测中的应用研究[J].计算机应用研究,2018,35(1):155-157. 被引量：7
9张静,王力.黄土塬区苹果园蒸散与环境因素的关系[J].林业科学,2018,54(3):29-38. 被引量：9
10李奇峰,王文婷,余礼根,高荣华,肖伯祥,马为红,丁露雨.信息技术在畜禽养殖中的应用进展[J].中国农业信息,2018,30(2):15-23. 被引量：16

引证文献3

1丁露雨,吕阳,李奇峰,王朝元,余礼根,宗伟勋.融合多环境参数的鸡粪氨气排放预测模型研究[J].农业机械学报,2022,53(5):366-375. 被引量：1
2贾钰峰,李容,章蓬伟,邵小青.基于字向量的短文本情感分类研究[J].微处理机,2023,44(6):40-45.
3孙莹,章玉婷,庄福振,祝恒书,何清,熊辉.基于集合效用边际贡献学习的可解释薪酬预测算法[J].计算机研究与发展,2024,61(5):1276-1289.

二级引证文献1

1谢秋菊,马超凡,王圣超,包军,刘洪贵,于海明.猪舍氨气与二氧化碳浓度变化时序预测模型优化[J].农业机械学报,2023,54(7):381-391. 被引量：2

1崔海华,徐振龙,杨亚鹏,孟亚云,王宝俊.一种基于深度学习图像超分的环形靶标稳定检测方法[J].中国机械工程,2021,32(23):2861-2867. 被引量：3
2周文进,李凡,薛峰.基于YOLOv3和注意力机制的野外蝴蝶种类识别[J].郑州大学学报（工学版）,2022,43(1):34-40. 被引量：6
3章岳,黄赛豪,陆凯华,李正华.基于模板的中文上下位关系抽取方法[J].计算机应用与软件,2022,39(1):126-134. 被引量：2
4Wenxi Han,Mingzhi Cheng,Min Lei,Hanwen Xu,Yu Yang,Lei Qian.Privacy Protection Algorithm for the Internet of Vehicles Based on Local Differential Privacy and Game Model[J].Computers, Materials & Continua,2020(8):1025-1038. 被引量：5

计算机研究与发展

2022年第1期

浏览历史

内容加载中请稍等...

关于短文本匹配的泛化性和迁移性的研究分析被引量：3

同被引文献20

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

关于短文本匹配的泛化性和迁移性的研究分析 被引量：3

同被引文献20

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

关于短文本匹配的泛化性和迁移性的研究分析被引量：3