基于Tri-training与噪声过滤的弱监督关系抽取被引量：2

Weakly Supervised Relation Extraction Based on Tri-training and Noise Filtering

下载PDF

导出

摘要弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tritraining with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。 Weakly supervised relation extraction utilizes entity pairs to obtain training data from texts automatically,which can effectively deal with the problem of inadequate training data.However,there are many problems in the weakly supervised training data such as noise,inadequate features,and imbalance samples,leading to low performance of relation extraction.In this paper,a weakly supervised relation extraction algorithm named NF-Tri-training（Tri-training with Noise Filtering）is proposed.NF-Tri-training employs an under-sampling approach to solve the problem of imbalance samples,learns new samples iteratively from unlabeled data and uses a data editing technique to identify and discard possible mislabeled samples both in initial training data and in new samples generating at each iteration.The experiment on dataset of Hudong encyclopedia indicates the proposed method can improve the performance of relation classifiers.

作者贾真冶忠林尹红风何大可 JIA Zhen YE Zhonglin YIN Hongfeng HE Dake(School of Information and Science Technology, Southwest Jiaotong University, Chengdu, Sichuan 610031, China DOCOMO Innovations Inc. ,Palo Alto 94304, USA)

机构地区西南交通大学信息科学与技术学院 DOCOMO Innovations公司

出处《中文信息学报》 CSCD 北大核心 2016年第4期142-149,158,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61170111,61202043,61262058)

关键词关系抽取弱监督学习 TRI-TRAINING 数据编辑 relation extraction weakly supervised learning Tri-training data editing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
2杨宇飞,戴齐,贾真,尹红风.基于弱监督的属性关系抽取方法[J].计算机应用,2014,34(1):64-68. 被引量：10
3欧阳丹彤,瞿剑峰,叶育鑫.关系抽取中基于本体的远监督样本扩充[J].软件学报,2014,25(9):2088-2101. 被引量：7
4邓超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法[J].软件学报,2008,19(3):663-673. 被引量：30
5邓超,郭茂祖.基于自适应数据剪辑策略的Tri-training算法[J].计算机学报,2007,30(8):1213-1226. 被引量：15
6王中卿,李寿山,朱巧明,李培峰,周国栋.基于不平衡数据的中文情感分类[J].中文信息学报,2012,26(3):33-37. 被引量：11

二级参考文献116

1叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
4Pang B.,Lee L.,Vaithyanathan S.Thumbs up?:Sentiment Classification using Machine LearningTechniques[C] //Proceedings of EMNLP.2002. 被引量：1
5Blitzer J.,Dredze M.,Pereira F.Biographies.Bollywood,Boom-boxes and Blenders:DomainAdaptation for Sentiment Classification[C] //Proceedings of ACL.2007. 被引量：1
6Li S.,Huang C.,Zhou G.,et al.EmployingPersonal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C] //Proceedingsof ACL.2010. 被引量：1
7Barandela R.,Sánchez J.S.,García V.,et al.Strategiesfor Learning in Class Imbalance Problems[J].PatternRecognition,2003,36:849-851. 被引量：1
8Kubat M.,Matwin S.Addressing the Curse ofImbalanced Training Sets:One-Sided Selection[C] //Proceedings of ICML.1997. 被引量：1
9Chawla N.,Bowyer K.,Hall L.,et al.SMOTE:Synthetic Minority Over-Sampling Technique[J].Journal of Artificial Intelligence Research,2002,16:321-357. 被引量：1
10Juszczak P.,Duin R.Uncertainty Sampling Methodsfor One-Class Classifiers[C] //Proceedings of ICML,Workshop on Learning with Imbalanced Data Sets II.2003. 被引量：1

共引文献95

1程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
2吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
3王娇,罗四维,曾宪华.基于随机子空间的半监督协同训练算法[J].电子学报,2008,36(B12):60-65. 被引量：14
4李昆仑,张伟,代运娜.基于Tri-training的半监督SVM[J].计算机工程与应用,2009,45(22):103-106. 被引量：15
5胡正平,高文涛,万春艳.基于样本不确定性和代表性相结合的可控主动学习算法研究[J].燕山大学学报,2009,33(4):341-346. 被引量：4
6梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报（自然科学版）,2009,32(4):528-534. 被引量：32
7卢加磊,朱世华,丁香乾,黄跃华.基于Co-training的烟草原料数据优化分析[J].计算机与现代化,2010(2):176-179.
8赵倩,尚学群,王淼.基于seeds集和频繁项集挖掘的半监督聚类算法[J].计算机工程与应用,2010,46(8):123-126. 被引量：2
9蔡晰,郭躬德,黄添强.用于化合物毒性预测的半监督分类算法[J].计算机工程与设计,2010,31(12):2838-2841.
10李永忠,王汝山,张念贵,王玉雷.基于半监督模糊聚类的入侵检测技术[J].江苏科技大学学报（自然科学版）,2010,24(4):381-385. 被引量：1

同被引文献13

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
3甘丽新,万常选,刘德喜,钟青,江腾蛟.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284-302. 被引量：74
4吴胜,刘茂福,胡慧君,张志清,顾进广.中文文本中实体数值型关系无监督抽取方法[J].武汉大学学报（理学版）,2016,62(6):552-560. 被引量：6
5肜博辉,付琨,黄宇,王洋.基于多通道卷积神经网的实体关系抽取[J].计算机应用研究,2017,34(3):689-692. 被引量：22
6张晓斌,陈福才,黄瑞阳.基于CNN和双向LSTM融合的实体关系抽取[J].网络与信息安全学报,2018,4(9):44-51. 被引量：14
7延浩然,靳小龙,贾岩涛,程学旗.一种改进的实体关系抽取算法——OptMultiR[J].中文信息学报,2018,32(9):66-74. 被引量：2
8黄杨琛,贾焰,甘亮,徐菁,黄九鸣,赫中翮.基于远程监督的多因子人物关系抽取模型[J].通信学报,2018,39(7):103-112. 被引量：10
9张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135. 被引量：21
10冯建周,宋沙沙,王元卓,刘亚坤,武红颖,龚昊.基于改进注意力机制的实体关系抽取方法[J].电子学报,2019,47(8):1692-1700. 被引量：18

引证文献2

1吴粤敏,丁港归,胡滨.基于注意力机制的农业金融文本关系抽取研究[J].数据分析与知识发现,2019,3(5):86-92. 被引量：6
2赵鹏武,李志义,林小琦.基于注意力机制和卷积神经网络的中文人物关系抽取与识别[J].数据分析与知识发现,2022,6(8):41-51. 被引量：6

二级引证文献12

1曹旭友,周志平,王利,赵卫东.基于BERT+ATT和DBSCAN的长三角专利匹配算法[J].信息技术,2020,44(3):1-5. 被引量：4
2余传明,王曼怡,安璐.跨语言情境下基于对抗的实体关系抽取模型研究[J].图书情报工作,2020,64(17):131-144.
3乐毅,王文宇,张凯,梁振京,刘飞,陈祎琼,吴云志,张友华.基于多层注意力机制的农业病虫害远程监督关系抽取研究[J].安徽农业大学学报,2020,47(4):682-686. 被引量：7
4马江微,吕学强,游新冬,肖刚,韩君妹.融合BERT与关系位置特征的军事领域关系抽取方法[J].数据分析与知识发现,2021,5(8):1-12. 被引量：2
5郑兰琴,范云超,牛佳玉.基于在线协作学习交互文本的跨领域知识图谱构建技术[J].电化教育研究,2022,43(12):70-77. 被引量：1
6周剑,谢知音.基于注意力机制的改进残差网络的柑橘分类研究[J].现代农业装备,2023,44(1):47-55. 被引量：2
7邱芹军,马凯,谢忠,陶留锋,黄波.基于注意力机制的孪生网络地质调查空间实体与文本信息匹配[J].高校地质学报,2023,29(3):337-344. 被引量：1
8李广建,袁钺.基于深度学习的科技文献知识单元抽取研究综述[J].数据分析与知识发现,2023,7(7):1-17. 被引量：8
9刘成星,张超群,代林林,张龙昊.TFLS-BiGRU-ATT:一种简单有效的中文短文本关系抽取模型[J].中文信息学报,2023,37(6):115-127.
10王欢,王兴芬,吕金娜.面向金融文本的实体关系抽取方法[J].计算机工程与设计,2023,44(11):3345-3351. 被引量：1

1张敏灵.偏标记学习研究综述[J].数据采集与处理,2015,30(1):77-87. 被引量：13
2马超.基于Web信息使用改进的无监督关系抽取方法构建交通本体[J].计算机系统应用,2015,24(12):273-276. 被引量：4
3陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
4张雁,林英,吕丹桔.基于Tri-Training算法的数据编辑技术[J].计算机与数字工程,2013,41(10):1583-1585.
5王雷,杨思春.基于改进Tri-training算法的中文问句分类[J].安徽工业大学学报（自然科学版）,2016,33(2):172-176. 被引量：1
6张雁,吕丹桔,吴保国.基于Tri-Training半监督分类算法的研究[J].计算机技术与发展,2013,23(7):77-79. 被引量：9
7张雁,吴保国,吕丹桔,林英.基于Tri-training的主动学习算法[J].计算机工程,2014,40(6):215-218. 被引量：3
8蔡维玲,雷磊.一种基于最优监督型聚类中心的关系分类器[J].传感器与微系统,2009,28(4):85-87.
9李心磊,杨思春,彭月娥.Tri-training算法中分类器组合的改进[J].苏州科技学院学报（自然科学版）,2014,31(2):52-56. 被引量：4
10李艳玲,颜永红.中文口语理解弱监督训练方法[J].计算机应用,2015,35(7):1965-1968. 被引量：2

中文信息学报

2016年第4期

浏览历史

内容加载中请稍等...

基于Tri-training与噪声过滤的弱监督关系抽取被引量：2

参考文献6

二级参考文献116

共引文献95

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Tri-training与噪声过滤的弱监督关系抽取 被引量：2

参考文献6

二级参考文献116

共引文献95

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Tri-training与噪声过滤的弱监督关系抽取被引量：2