基于CRF算法的汉语比较句识别和关系抽取被引量：22

Mining Chinese comparative sentences and relations based on CRF algorithm

下载PDF

导出

摘要比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。 Comparative sentences are a common kind of expression to indicate the relations of different objects. They are valuable for text mining, especially for opinion mining. It is a novel research to identify Chinese comparative sentences and extract comparative relations. To identify Chinese comparative sentences, this paper took SVM as classifier and regarded keywords and class sequential rule as feature based on the previous research, and then used CRF algorithm to identify entity and also took the entity’s information as feature. Finally, remarkably improve the precision, recall and F-measure for identifying comparative sentences and got the result up to 96.55%, 88.63% and 92.43% respectively. To mine comparative relations, extracted comparative subject and objected by defining some rules together with the result of CRF algorithm for identifying entity, and obtained good result. And the result to extract comparative subject is better than comparative object.

作者黄高辉姚天昉刘全升

机构地区上海交通大学计算机科学与工程系

出处《计算机应用研究》 CSCD 北大核心 2010年第6期2061-2064,共4页 Application Research of Computers

基金国家自然科学基金资助项目(60773087)

关键词比较句比较关系 CRF模型比较主体比较基准 comparative sentence comparative relation CRF model comparative subject comparative object

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1JINDAL N,LIU Bing.Identifying comparative sentences in text documents[C] //Proc of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2006:244-251. 被引量：1
2JINDAL N,LIU Bing.Mining comparative sentences and relations[C] //Proc of the 21st National Conference on Artificial Intelligence.Boston:AAAI Press,2006:1331-1336. 被引量：1
3FELDMAN R,FRESKO M,GOLDENBERG J.Extracting product comparisons from discussion boards[C] //Proc of the 7th IEEE Inter-national Conference on Data Mining.Washington DC:IEEE Compu-ter Society,2007:469-474. 被引量：1
4SUN Jian-tao,WANG Xuan-hui,SHEN Dou,et al.CWS:a comparative Web search system[C] //Proc of the 15th International Conference on World Wide Web.New York:ACM Press:2006:467-476. 被引量：1
5LUO Gang,TANG Chun-qiang,TIAN Ying-li.Answering relationship queries on the Web[C] //Proc of the 16th International Conference on World Wide Web.New York:ACM Press,2007:561-570. 被引量：1
6许国萍著..现代汉语差比范畴研究[M].上海:学林出版社,2007:217.
7车竞.现代汉语比较句论略[J].湖北师范学院学报（哲学社会科学版）,2005,25(3):60-63. 被引量：23
8刘焱著..现代汉语比较范畴的语义认知基础[M].上海:学林出版社,2004:324.
9黄小江,万小军,杨建武,肖建国.汉语比较句识别研究[J].中文信息学报,2008,22(5):30-38. 被引量：16
10LAFFERTY J D,McCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C] //Proc of the 18th International Conference on Machine Learning.San Framcisce CA:Morgan Kaufmann Publishers Inc,2001. 被引量：1

二级参考文献24

1车竞.现代汉语比较句论略[J].湖北师范学院学报（哲学社会科学版）,2005,25(3):60-63. 被引量：23
2黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
3[8]相原茂.汉语比较句的两种否定形式[M].语言教学与研究.1992. 被引量：1
4[9]徐燕青."不比"型比较句的语义类型[M].语言教学与研究.1996. 被引量：1
5N. JINDAL, B. LIU. Identifying Comparative Sentences in Text Documents [C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 2006:244 251. 被引量：1
6N. JINDAL, B. LIU. Mining Comparative Sentences and Relations[C]//Proceedings of the 21st National Conference on Artificial Intelligence (AAAI-06). 2006. 被引量：1
7C. ZHAI, A. VELIVELLI, B. YU. A Cross Collection Mixture Model for Comparative Text Mining [C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM: 2004:743-748. 被引量：1
8P. ZANG, C. ZHAI. CTMS: a comparative text mining system[D]. Champaign.- University of Illinois at Urbana-Champaign Computer Science Department, 2004. 被引量：1
9J.-T. SUN, X. WANG, D. SHEN, H.-J. ZENG, Z. CHEN. CWS: A Comparative Web Search System [C]//Proceedings of the 15th International Conference on World Wide Web. ACM:2006: 467-476. 被引量：1
10G. LUO, C. TANG, Y.-L. TIAN. Answering relationship queries on the web[C]//Proceedings of the 16th international conference on World Wide Web. ACM: 2007: 561-570. 被引量：1

共引文献29

1盛银花.湖北安陆方言的比较句[J].湖北第二师范学院学报,2010,27(12):40-44. 被引量：1
2黄小江,万小军,杨建武,肖建国.汉语比较句识别研究[J].中文信息学报,2008,22(5):30-38. 被引量：16
3宋锐,林鸿飞,常富洋.中文比较句识别及比较关系抽取[J].中文信息学报,2009,23(2):102-107. 被引量：26
4田宇贺.试谈黄廖本《现代汉语》增订四版对语法部分的修改[J].湖北社会科学,2009(5):125-128.
5宋鹏.柬埔寨留学生汉语比较句习得研究[J].和田师范专科学校学报,2011,31(3):57-59. 被引量：2
6陆识为.南宁白话的比较句[J].桂林师范高等专科学校学报,2011,25(2):11-15.
7翟东升,徐颖,黄鲁成,赵京.基于产品评论挖掘的竞争产品优势分析[J].情报杂志,2013,32(2):45-51. 被引量：11
8王素格,王凤霞,宋雅.基于序列模式的汉语比较句识别方法[J].山西大学学报（自然科学版）,2013,36(2):172-179. 被引量：1
9杜文韬,刘培玉,费绍栋,张朕.基于关联特征词表的中文比较句识别[J].计算机应用,2013,33(6):1591-1594. 被引量：5
10侯明午.汉语否定比较句初探[J].科教文汇,2013(26):64-65.

同被引文献199

1尚平.比较句系统研究综述[J].语言文字应用,2006(S2):77-80. 被引量：12
2许国萍.“比”字句研究综述[J].汉语学习,1996(6):28-31. 被引量：29
3又宁.现代汉语中两种主要的比较句的分析[J].语文研究,1995(3):5-11. 被引量：5
4任海波.现代汉语“比”字句结论项的类型[J].语言教学与研究,1987(4):91-103. 被引量：30
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
6刘焱.“比”字句对比较项选择的语义认知基础[J].上海财经大学学报,2004,6(5):76-80. 被引量：6
7储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10
8陈珺,周小兵.比较句语法项目的选取和排序[J].语言教学与研究,2005(2):22-33. 被引量：61
9车竞.现代汉语比较句论略[J].湖北师范学院学报（哲学社会科学版）,2005,25(3):60-63. 被引量：23
10黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8

引证文献22

1刘莉,何中市,邢欣来,毛小丽.基于语义角色的中文时间表达式识别[J].计算机应用研究,2011,28(7):2543-2545. 被引量：14
2毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究,2012,29(2):530-532. 被引量：9
3王素格,王凤霞,宋雅.基于序列模式的汉语比较句识别方法[J].山西大学学报（自然科学版）,2013,36(2):172-179. 被引量：1
4杜文韬,刘培玉,费绍栋,张朕.基于关联特征词表的中文比较句识别[J].计算机应用,2013,33(6):1591-1594. 被引量：5
5张辰,冯冲,刘全超,师超,黄河燕,周海云.基于多特征融合的中文比较句识别算法[J].中文信息学报,2013,27(6):110-116. 被引量：10
6周红照,侯明午,侯敏,滕永林.基于语义分类的比较句识别与比较要素抽取研究[J].中文信息学报,2014,28(3):136-141. 被引量：9
7姜伟,钟志农,吴烨,陈荦,李杰.基于综合支持度的广义空间实体关系特征词提取方法[J].计算机与现代化,2014(8):30-33. 被引量：1
8王素格,赵策力,刘慧慧.基于规则与序列模式的比较要素缺省识别[J].山西大学学报（自然科学版）,2015,38(1):85-92. 被引量：1
9白林楠,胡韧奋,刘智颖.基于句法语义规则系统的比较句自动识别[J].北京大学学报（自然科学版）,2015,51(2):275-281. 被引量：3
10史庆伟,郭朋亮.基于LDA的条件随机场主题模型研究[J].计算机工程与应用,2015,51(7):131-135. 被引量：1

二级引证文献89

1熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：11
4李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
5沈思,苏新宁,谢靖,王东波.基于清华汉语树库的时间表达式抽取模型构建研究[J].图书情报工作,2012,56(18):127-132. 被引量：6
6肖升,何炎祥,李勇帆.基于依存分析的中文时间表达式类型判定[J].计算机应用,2013,33(6):1582-1586. 被引量：2
7昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动识别研究[J].计算机工程与设计,2013,34(6):2152-2157. 被引量：5
8仲兆满,李存华,乔磊,张文艳,管燕.一种高效的Web新闻发表时间提取方法[J].小型微型计算机系统,2013,34(9):2085-2089.
9侯明午.汉语否定比较句初探[J].科教文汇,2013(26):64-65.
10王伟,赵东岩,苏婷婷.C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法[J].北京大学学报（自然科学版）,2014,50(1):9-16. 被引量：4

1黄小江,万小军,杨建武,肖建国.汉语比较句识别研究[J].中文信息学报,2008,22(5):30-38. 被引量：16
2宋锐,林鸿飞,常富洋.中文比较句识别及比较关系抽取[J].中文信息学报,2009,23(2):102-107. 被引量：26
3白林楠,胡韧奋,刘智颖.基于句法语义规则系统的比较句自动识别[J].北京大学学报（自然科学版）,2015,51(2):275-281. 被引量：3
4王素格,王凤霞,宋雅.基于序列模式的汉语比较句识别方法[J].山西大学学报（自然科学版）,2013,36(2):172-179. 被引量：1
5王晓伟,金宏斌,徐毓.一种多传感器偏差估计方法[J].空军雷达学院学报,2003,17(2):30-32. 被引量：2
6王巍,赵铁军,徐冰,郑德权.中文比较句的自动识别[J].智能计算机与应用,2015,5(5):1-3. 被引量：2
7王慧云,禹龙,田生伟,加米拉.吾守尔,冯冠军.维吾尔语比较句识别研究[J].中文信息学报,2016,30(1):148-155.
8刘放,陈明,罗兴文,汤萍.虚拟仪器技术在捷联惯导系统软件测试中的应用[J].航空计测技术,2003,23(3):34-36. 被引量：5
9彭保林.跟踪和管理项目[J].视窗世界,2003(11):68-68.
10王邦军,李凡长,张莉,于剑,何书萍.基于改进协方差特征的李-KNN分类算法[J].模式识别与人工智能,2014,27(2):173-178. 被引量：8

计算机应用研究

2010年第6期

浏览历史

内容加载中请稍等...

基于CRF算法的汉语比较句识别和关系抽取被引量：22

参考文献10

二级参考文献24

共引文献29

同被引文献199

引证文献22

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于CRF算法的汉语比较句识别和关系抽取 被引量：22

参考文献10

二级参考文献24

共引文献29

同被引文献199

引证文献22

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于CRF算法的汉语比较句识别和关系抽取被引量：22