基于SVM和扩展条件随机场的Web实体活动抽取被引量：14

Extracting Web Entity Activities Based on SVM and Extended Conditional Random Fields

下载PDF

导出

摘要在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取. On the basis of the traditional methods extracting information,this paper defines the formal model of entity activity based on case grammar and presents a method based on supported vector machine and extended condition random fields to extract Web entity activities accurately.First,in order to automatically train the machine learning models,the study puts forward a heuristic method to transform the semantic role labeling training data into the training data of entity activity extraction.Next,the study trains a support vector machine classifier and extends condition random fields using the training data.Third,using the classifier,the study distinguishes the sentences that contain Web entity activities.The paper also proposes forward and extends condition random fields to model the frequency and relationship feature.The traditional conditional random fields cannot model this while the new model can label the entity activity information in natural language sentences more accurately.Finally,the experimental results show that the method is effective in multi-domains and can be applied to Web entity activity extraction.

作者张传岩洪晓光彭朝晖李庆忠

机构地区山东大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2012年第10期2612-2627,共16页 Journal of Software

基金国家自然科学基金(61003051) 国家科技支撑计划(2009BAH44B02) 山东省自然科学基金(2009ZRB019RW) 山东省科技攻关计划(2010GGX10108)

关键词信息抽取格语法实体活动支持向量机扩展条件随机场 information extraction case grammar entity activity support vector machine extended condition random fields

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
2黄健斌,姬红兵,孙鹤立.基于混合跳链条件随机场的异构Web记录集成方法[J].软件学报,2008,19(8):2149-2158. 被引量：8
3丁艳辉,李庆忠,董永权,彭朝晖.基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J].计算机学报,2010,33(2):267-278. 被引量：6

二级参考文献54

1周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
2Zhai Y H, Liu B. Web data extraction based on partial tree alignment//Proceedings of the 14th International Conference on World Wide Web. Chiba, Japan, 2005:76-85. 被引量：1
3Chang C H, Kayed M, Girgis M R, Shaalan K. A survey of web information extraction systems. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10) : 1411-1428. 被引量：1
4Creseenzi V, Mecca G, Merialdo P. Roadrunner: Towards automatic data extraction from large web sites//Proceedings of the Very Large DataBase. Roma, Italy, 2001 : 109-118. 被引量：1
5Nie Zai-Qing, Wen Ji-Rong, Ma Wei-Ying. Webpage understanding: Beyond page-level search. SIGMOD Record, 2008, 37(4):48-54. 被引量：1
6Wong Tak-Lam, Lam Wai. Learning to adapt web information extraction knowledge and discovering new attributes via a Bayesian approach. IEEE Transactions on Knowledge and Data Engineering, to appear. 被引量：1
7Lerman K, Getoor L, Minton S, Knoblock C. Using the structure of web sites for automatic segmentation of tables// Proceedings of the 2004 ACM SIGMOD International Conference on Management of Data. Paris, France, 2004:119-130. 被引量：1
8Embley D, Campbell D, Jiang Yet al. COnceptual-modelbased data extraction from multiple-record web pages. Data and Knowledge Engineering, 1999, 31(3):227-251. 被引量：1
9Mukherjee S, Ramakrishnan I V, Singh A. Bootstrapping semantic annotation for content-rich html documents//Proceedings of the 21st International Conference on Data Engineering. Tokyo, Japan, 2005:583-593. 被引量：1
10Arlotta L, Crescenzi V, Mecca G, Merialdo P. Automatic annotation of data extracted from large web sites//Proceedings of the WebDB. San Diego, USA, 2003:7-12. 被引量：1

共引文献84

1刘亚慧,杨浩苹,李正华,张民.一种轻量级的汉语语义角色标注规范[J].中文信息学报,2020(4):10-20. 被引量：4
2丁金涛,周国栋,王红玲,朱巧明.语义角色标注中有效的识别论元算法研究[J].计算机工程与应用,2008,44(18):153-156. 被引量：2
3方巍,黄黎,崔志明.基于最大熵分类器的Deep Web查询接口自动判定[J].计算机工程与应用,2008,44(21):133-137. 被引量：1
4丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类[J].中文信息学报,2008,22(6):20-26. 被引量：11
5丁金涛,王红玲,周国栋,朱巧明,钱培德.语义角色标注中特征优化组合研究[J].计算机应用与软件,2009,26(5):17-21. 被引量：7
6谢毓湘,栾悉道,吴玲达,谭洁,陈丹雯.基于概念的多媒体数据语义检索模型[J].计算机应用研究,2009,26(8):2945-2947.
7汪红林,王红玲,周国栋.基于依存关系的语义角色标注[J].计算机工程,2009,35(15):82-84. 被引量：4
8贾君枝,赵文娟,王东元.汉语框架网络知识库的语义角色特征识别[J].图书情报工作,2009,53(17):110-113. 被引量：4
9丁伟伟,常宝宝.基于语义组块分析的汉语语义角色标注[J].中文信息学报,2009,23(5):53-61. 被引量：24
10李军辉,王红玲,周国栋,朱巧明,钱培德.语义角色标注中句法特征的研究[J].中文信息学报,2009,23(6):11-18. 被引量：11

同被引文献139

1潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615. 被引量：182
2程志.对裁判文书改革与深化的研究[J].当代法学,2002,16(11):115-118. 被引量：4
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5王会珍,朱靖波,季铎,叶娜,张斌.基于反馈学习自适应的中文话题追踪[J].中文信息学报,2006,20(3):92-98. 被引量：17
6周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
7王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
8夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
9沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：32
10徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27

引证文献14

1林志杰,余春艳.改进的基于平衡二叉决策树的SVM多分类算法[J].小型微型计算机系统,2014,35(5):1128-1132. 被引量：6
2刘绍毓,周杰,李弼程,席耀一,唐浩浩.基于多分类SVM-KNN的实体关系抽取方法[J].数据采集与处理,2015,30(1):202-210. 被引量：20
3戴丹,胡杨,刘骊,冯旭鹏,刘利军,黄青松.基于层叠条件随机场的微博热点话题跟踪[J].计算机应用与软件,2016,33(4):56-59.
4徐元子,张迎新,刘登第.基于条件随机场的网络评论与事件中命名实体匹配研究[J].计算机应用研究,2016,33(6):1642-1647. 被引量：3
5徐元子,张迎新,刘登第.基于Markov逻辑网的事件表象统一方法[J].计算机应用研究,2016,33(12):3547-3553.
6冯海涛,李琳,黄炎一,余小婷.微博内容自动抽取方法研究[J].辽宁工业大学学报（自然科学版）,2017,37(1):13-16.
7申琳,李晓刚.基于蒙特卡洛有限元算法的建筑节约用材研究[J].计算机与数字工程,2017,45(7):1264-1267.
8温雯,伍思杰,蔡瑞初,郝志峰.面向专业文献知识实体类型的抽取和标注[J].中文信息学报,2018,32(1):102-115. 被引量：5
9宋旭,刘国英.基于自动编码机特征融合的图像行为识别算法[J].计算机工程与设计,2019,40(5):1477-1483. 被引量：1
10黄菡,王宏宇,王晓光.结合主动学习的条件随机场模型用于法律术语的自动识别[J].数据分析与知识发现,2019,3(6):66-74. 被引量：14

二级引证文献77

1姚元杰,龚毅光,刘佳,陈嫚丽.基于多粒度信息融合的气象知识命名实体识别[J].计算机与数字工程,2023,51(1):186-193.
2虞金中,杨先凤,陈雁,李娟.基于混合模型的新闻事件要素提取方法[J].计算机系统应用,2018,27(12):169-174. 被引量：2
3张晓惠,林柏钢.基于平衡二叉决策树SVM算法的物联网安全研究[J].信息网络安全,2015(8):20-25. 被引量：12
4刘洪栋,刘军发,陈援非.面向智能家居的个性化需求挖掘与应用[J].小型微型计算机系统,2015,36(12):2794-2797. 被引量：9
5郭继昌,季文驰,顾翔元.基于改进逻辑回归分类算法的LSB匹配隐写检测[J].数据采集与处理,2015,30(6):1160-1168.
6李泓波,彭三城,白劲波,杨高明,黄少伟.一类决策树ID3改进算法探究[J].软件导刊,2016,15(2):30-32. 被引量：4
7郭金玲,樊东燕,郭虎升.一种动态的主动多分类方法[J].数据采集与处理,2016,31(1):152-159.
8郭金玲.极坐标核在样本分类问题中的应用研究[J].太原师范学院学报（自然科学版）,2016,15(1):43-46.
9陈跃.改进可拓理论的带钢表面缺陷图像分类方法[J].南京师范大学学报（工程技术版）,2016,16(3):54-62. 被引量：1
10齐爱芹,徐蔚然.基于词向量的实体链接方法[J].数据采集与处理,2017,32(3):604-611. 被引量：2

1刘显敏,李建中.一种扩展条件函数依赖的发现算法[J].计算机研究与发展,2015,52(1):130-140. 被引量：5
2周集良.描述递归算法的有效工具──递归树[J].怀化师专学报,1999,18(5):41-44. 被引量：3
3马成,朱奕,伞冶.一种基于区间估计的粒子滤波算法[J].哈尔滨工业大学学报,2013,45(11):8-12. 被引量：4
4代治国.智能光网络路由选择技术及其算法[J].技术与市场,2012,19(6):214-215. 被引量：1
5曹巍,袁赞,吴志红.基于点云数据的牙齿表面重建算法[J].四川大学学报（自然科学版）,2015,52(3):517-522. 被引量：1
6杨辉,于守健,陈少总.基于输入样本和主数据的编辑规则挖掘算法[J].计算机系统应用,2017,26(4):162-168.
7肖正,刘辉,李兵.一种基于语义距离的Web评论SVM情感分类方法[J].计算机科学,2014,41(9):248-252. 被引量：13
8吕滨,雷国华,于燕飞,杨泽雪,王亚东.基于语义分析的网络不良信息过滤系统研究[J].计算机应用与软件,2010,27(2):283-285. 被引量：7
9欧阳丹彤,瞿剑峰,叶育鑫.关系抽取中基于本体的远监督样本扩充[J].软件学报,2014,25(9):2088-2101. 被引量：7
10苏牧,肖人彬.基于聚类分析的自然语言识别方法研究[J].模式识别与人工智能,2001,14(1):73-77. 被引量：3

软件学报

2012年第10期

浏览历史

内容加载中请稍等...

基于SVM和扩展条件随机场的Web实体活动抽取被引量：14

参考文献3

二级参考文献54

共引文献84

同被引文献139

引证文献14

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于SVM和扩展条件随机场的Web实体活动抽取 被引量：14

参考文献3

二级参考文献54

共引文献84

同被引文献139

引证文献14

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于SVM和扩展条件随机场的Web实体活动抽取被引量：14