基于弱监督学习的海量网络数据关系抽取被引量：34

Extracting Relations from the Web via Weakly Supervised Learning

下载PDF

导出

摘要在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求. In the time of big data, information extraction at a large scale has been an important topic discussed in natural language processing and information retrieval. Specifically, weak supervision, as a novel framework that need not any human involvement and can be easily adapted to new domains, is receiving increasing attentions. The current study of weak supervision is intended primarily for English, with conventional features such as segments of words based lexical features and dependency based syntactic features. However, this type of lexical features often suffer from the data sparsity problem, while syntactic features strongly rely on the availability of syntactic analysis tools. This paper proposes to make use of n-gram features which can relieve to some extent the data sparsity prob mult em brought by lexical features. It is also observed that the n-gram features are important for lingual relation extraction, especially, they can make up for the syntactic features in those languages where syntactic analysis tools are not reliable. In order to deal with the quality issue of training data used in weakly supervised learning models, a bootstrapping approach, co-training, is introduced into the framework to improve this extraction paradigm. We study the strategies used to combine the outputs from different training views. The experimental results on both English and Chinese datasets show that the proposed approach can effectively improve the performance of weak supervision in both languages, and has the potential to work well in a multilingual scenario with more languages.

作者陈立玮冯岩松赵东岩

机构地区北京大学计算机科学技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2013年第9期1825-1835,共11页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目(2012AA011101) 国家自然科学基金项目(61272344 61202233)

关键词关系抽取弱监督学习最大熵模型协同训练知识库构建 relation extraction weakly supervised learning maximum entropy co-training knowledgebase construction

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献39

1Sundheim B, Chinchor N. Survey of the message understanding conferences[CJ Jjproc of HLT'93. Stroudsburg, PA: ACL, 1993: 56-60. 被引量：1
2Banko M, Cafarella M, Soderland S, et a1. Open information ext ract ion from the Web[CJ JjProc of I]CAI 2007. New York: ACM, 2007: 2670-2676. 被引量：1
3Fader A, Soderland S, Etzioni D. Identifying relations for open information extraction[CJ JjProc of EMNLP 2011. Stroudshurg, PA: ACL, 2011: 1535-1545. 被引量：1
4Carlson A, BetteridgeJ, Kisiel B, et a1. Toward an architecture for never-ending language learning[CJ JjProc of AAAI2010. Palo Alto, CA: AAAL 2010: 1306-1313. 被引量：1
5Craven M, KumlienJ. Constructing biological knowledge bases by extracting information from text sources[CJ /lProc of the 7th Int Conf on Intelligent Systems for Molecular Biology. Palo Alto, CA: AAAL 1999: 77-86. 被引量：1
6Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[CJ Jjproc of ICML 1998. New York: ACM, 1998: 92-100. 被引量：1
7车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
8刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：58
9董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
10WU Fei, Hoffmann R, Weld D. Information extraction from Wikipedia . Moving down the long tail[CJ JjProc of ACM SIGKDD 2008. New York: ACM, 2008: 731-739. 被引量：1

二级参考文献71

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
3Chapelle O, Scholkopf B, Zien A. Semi-supervised Learning [ M]. Cambridge: MIT Press,2006. 被引量：1
4Zhu Xiao-Jin. Semi-supervised Learning with Graphs[D]. Carnegie Mellon University, doctoral thesis, 2005. 被引量：1
5Blum A, Chawla S. Learning from labeled and unlabeled clam using graph mincuts[A]. Proceedings of the 18th International Conference on Machine Learning [ C]. Williamston, MA, 2001. 19 - 26. 被引量：1
6Szummer M, Jaakkola T. Partially labeled classification with markov random walks [ A ]. Advances in Neural Information Processing Systems 14[ C]. Cambridge, MA: MIT Press, 2002. 945 - 952. 被引量：1
7Joachims T. Transductive inference for text classification using support vector machines [ A]. Proceedings of the 16th International Conference on Machine Learning[ C]. New York, USA, 1999. 200 - 209. 被引量：1
8Tong S, Koller D. Support vector machine active learning with applications to text classification[ A]. Proceedings of the 17th International Conference on Machine Learning [ C ]. Stanford, US,2000.999- 1006. 被引量：1
9Nigam K, McCallum A K, Thrtm S, Mitchell T. Text classification from labeled and unlabeled documents using EM[J]. Machine Learning,2000,39(2 - 3) : 103 - 134. 被引量：1
10Cozman F G, Cohen I, Cirelo M C. Semi-supervised learning of mixture model[ A]. Proceedings of the 20th International Conference on Machine Learning[ C ]. citeseer, 2003.99 - 106. 被引量：1

共引文献182

1葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：5
2吴婷,孔芳.基于图注意力卷积神经网络的文档级关系抽取[J].中文信息学报,2021,35(10):73-80. 被引量：12
3吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
4刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：25
5韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究,2020,37(S01):40-42. 被引量：3
6叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
7崔娜,雷涯邻,安海忠.面向用户需求的新闻文本集信息可视化模型[J].图书情报工作,2011,55(S2):273-279. 被引量：1
8李红亮,杨燕,尹红风,贾真.基于规则的百科人物属性抽取[J].集成技术,2013,2(3):1-4. 被引量：3
9黄毅,王庆林,刘禹.一种基于条件随机场的领域术语上下位关系获取方法[J].中南大学学报（自然科学版）,2013,44(S2):355-359. 被引量：5
10董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55

同被引文献281

1张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
2武新立.中国的家谱及其学术价值[J].历史研究,1988(6):20-34. 被引量：30
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4姜吉发,王树西.一种自举的二元关系和二元关系模式获取方法[J].中文信息学报,2005,19(2):71-77. 被引量：5
5吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
6何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25
7黄霄羽.国外家谱档案利用热潮之成因探析及启示[J].档案学通讯,2007(1):30-33. 被引量：28
8湛庐.家谱中的文献问题[J].北京大学学报（哲学社会科学版）,2007,44(1):150-151. 被引量：6
9毛建军.中国家谱数字化资源的开发与建设[J].档案与建设,2007(1):22-24. 被引量：25
10董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98

引证文献34

1段玉聪,邵礼旭,曹步清,周长兵,唐朝胜,宋正阳.非确定、不保真、复杂资源环境的正反双向动态平衡搜索服务[J].小型微型计算机系统,2019,40(1):181-185.
2程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：736
3贾真,杨燕,何大可.基于弱监督学习的中文百科数据属性抽取[J].电子科技大学学报,2014,43(5):758-763. 被引量：5
4王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：95
5贾真,何大可,杨燕,杨宇飞,冶忠林.基于弱监督学习的中文网络百科关系抽取[J].智能系统学报,2015,10(1):113-119. 被引量：7
6刘晓勇.一种基于树核函数的半监督关系抽取方法研究[J].山东大学学报（工学版）,2015,45(2):22-26. 被引量：2
7苏曦.探析大数据时代背景下基层数据统计面临的机遇和挑战[J].企业导报,2015(22):70-70. 被引量：5
8刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：938
9李聪颖,王瑞刚,梁小江.基于Hadoop的交互式大数据分析查询处理方法[J].计算机技术与发展,2016,26(8):134-137. 被引量：5
10贾真,冶忠林,尹红风,何大可.基于Tri-training与噪声过滤的弱监督关系抽取[J].中文信息学报,2016,30(4):142-149. 被引量：2

二级引证文献1839

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
3刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
4吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：27
5袁野,刘佳伟,赵惠浞,左志平,葛超,朱晋锐.基于知识图谱的钢厂设备故障智能诊断技术研究与应用[J].冶金设备,2023(S02):20-25.
6何宏,葛张鹏,徐小良,夏一行,王宇翔.基于知识图谱语义查询技术的科技咨询服务研究[J].信息与管理研究,2019,4(4):86-96.
7李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
8吴雅娟,杨壮壮,尚福华,解红涛,杜睿山.学习仪表盘在油田射孔取心工培训系统中的应用[J].系统仿真技术,2021,17(1):17-21.
9师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
10熊回香,严舞月.基于知识图谱的数字档案服务模式探究[J].知识管理论坛,2021(4):204-212. 被引量：3

1包家庆,李祥和,薛华.智能化入侵检测技术[J].计算机工程,2003,29(17):133-135. 被引量：3
2贾真,冶忠林,尹红风,何大可.基于Tri-training与噪声过滤的弱监督关系抽取[J].中文信息学报,2016,30(4):142-149. 被引量：2
3蒋锦林,谢华,肖寅东.提高Python处理网络数据速度的算法研究[J].自动化信息,2011(9):31-32. 被引量：1
4让你的英语资源无穷多[J].电脑爱好者,2003(3):12-12.
5代红.支持向量机在入侵检测中的应用[J].计算机工程,2012,38(4):143-145. 被引量：7
6杨志彬.基于数据流聚类算法的入侵检测技术[J].电脑知识与技术（过刊）,2012,18(12X):8353-8355.
7杨建明.关系抽取方法研究[J].电子技术（上海）,2009(4):36-41. 被引量：2
8刘晟,王振兴,李申堂.移动Agent的安全威胁及其对策[J].网络安全技术与应用,2001(3):15-18. 被引量：1
9强哥的报告说了我们将迈向人工智能时代[J].传感器与微系统,2017,36(4).
10张瑾.旅行如何选择高性价比酒店[J].理财（市场版）,2014(1):94-95.

计算机研究与发展

2013年第9期

浏览历史

内容加载中请稍等...

基于弱监督学习的海量网络数据关系抽取被引量：34

参考文献39

二级参考文献71

共引文献182

同被引文献281

引证文献34

二级引证文献1839

相关作者

相关机构

相关主题

浏览历史

基于弱监督学习的海量网络数据关系抽取 被引量：34

参考文献39

二级参考文献71

共引文献182

同被引文献281

引证文献34

二级引证文献1839

相关作者

相关机构

相关主题

浏览历史

基于弱监督学习的海量网络数据关系抽取被引量：34