基于动词依存集的领域概念聚类方法被引量：2

A domain concept clustering method based on the verb dependency set

下载PDF

导出

摘要为了能在小规模特定领域语料库上进行有效的概念聚类,提出了一种基于动词依存集的领域概念聚类方法。根据同类领域概念与特定的领域动词共现这一特征,在领域专家的辅助下制定动词依存集,通过计算在主谓结构和动宾结构中与动词依存集共现的概念动词依存度,将依存度高于阈值的概念聚为一类。实验证明,该方法在小规模特定领域语料库上较为实用,聚类结果的概念重合率优于基于LSI和基于搜索引擎的概念聚类方法。 In order to process the small-scale domain corpus,a domain concept clustering method based on the verb dependency set was proposed. According to the feature that the same cluster of domain concept appears together with specific domain verbs,the verb dependency set was developed with the assistance of domain experts. Next,the verb dependency value of concept which appeared together with verb dependency set in subject-predicate and verbobject structure was calculated,then the concepts that had higher dependency value than threshold were clustered.Experimental results showed that this method gets higher concept coincide than the LSI-based and the search engine-based concept clustering method,and it just adapts to processing the small-scale domain corpus.

作者刘里肖迎元

机构地区天津理工大学计算机视觉与系统省部共建教育部重点实验室天津理工大学天津市智能计算及软件新技术重点实验室

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2015年第7期949-953,共5页 Journal of Harbin Engineering University

基金国家自然科学基金资助项目(61202169 61301140) 天津市"131"创新型人才培养工程

关键词聚类方法语料库动词依存集依存句法分析领域概念概念重合率 clustering method corpus verb dependency set dependency parser domain concept concept coincide

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1TUFI? D, ION R, IDE N. Fine-grained word sense disambiguation based on parallel corpora, word alignment, word clustering and aligned wordnets[C]//Proceedings of the 20th International Conference on Computational Linguistics. Association for Computational Linguistics. Geneva, Switzerland, 2004: 1312. 被引量：1
2JIN P, SUN X, WU Y, et al. Word clustering for collocation-based word sense disambiguation [C]//Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2007: 267-274. 被引量：1
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4CHEN W L, CHANG X Z, WANG H Z, et al. Automatic word clustering for text categorization using global information[C]//Information Retrieval Technology. Berlin: Springer, 2005: 1-11. 被引量：1
5DHILLON I S, MALLELA S, KUMAR R. Enhanced word clustering for hierarchical text classification[C]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. Edmonton, Canada, 2002: 191-200. 被引量：1
6MOMTAZI S, KLAKOW D. A word clustering approach for language model-based sentence retrieval in question answering systems[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. ACM. Hong Kong, China, 2009: 1911-1914. 被引量：1
7郭怀恩,朱礼军,徐硕.词聚类技术研究综述[J].数字图书馆论坛,2010(5):15-19. 被引量：2
8闻扬,苑春法,黄昌宁.基于搭配对的汉语形容词-名词聚类[J].中文信息学报,2000,14(6):45-50. 被引量：11
9WANG B, WANG H. A comparative study on Chinese word clustering[C]//Computer Processing of Oriental Languages. Beyond the Orient: The Research Challenges Ahead. Berlin: Springer, 2006: 157-164. 被引量：1
10FARHAT A, ISABELLE J F, O’SHAUGHNESSY D. Clustering words for statistical language models based on contextual word similarity[C]// 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing. Atlanta, Georgia, 1996: 180-183. 被引量：1

二级参考文献57

1陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
2李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
3许伟.句法-语义一体化的汉语句法分析研究[硕士学位论文].北京:清华大学,1997.. 被引量：1
4边肇祺.模式识别[M].北京:清华大学出版社,1997.. 被引量：3
5JAMES A T, JUSTIN Z. A Model for Word Clustering[J]. Journal of the American Society for Information Science and Technology, 1992. 被引量：1
6PETER F B, VINCENT J D P, PETER V D, JENIFER C L,ROBERT L M. Class-Based n-gram Models of Natural Language[J]. Computational Linguistics, 1992. 被引量：1
7SHINSUKE M, MAKOTO N. A Stochastic language model using dependency and its improvement by word clustering[C]// Universite de Montreal, Government of Canada. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. Morristown, N J, USA: Association for Computational Linguistics, 1998: 898-904. 被引量：1
8JOHN G M, FRANCIS J S. Improving Statistical Language Model Performance with Automitically Generated Word Hierarchies[J]. Computational Linguistics, 1996,22(2):217-247. 被引量：1
9BAssiou N K, KOTROPOULOS C L. Interpolated distanced bigram language models for robust word clustering[C]//Nonlinear Signal and Image Processing.[出版者不详],2005. 被引量：1
10SHINSUKE M, NISHIMURA M, NOBUYASU I. Language Model Adaptation using Word Clustering[J]. Joho Shori Gakkai Kenkyu Hokoku, 2003,2003(14):89-94. 被引量：1

共引文献26

1张辉,薛贵荣.基于文本挖掘的搭配词典自动架构探讨[J].上海工程技术大学学报,2004,18(4):323-326. 被引量：2
2胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
3王锦,陈群秀.汉语述语形容词机器词典机器学习词聚类研究[J].中文信息学报,2007,21(3):40-46. 被引量：3
4陈炯,张永奎.基于加权信息论的突发事件新闻主题抽取方法[J].计算机应用,2008,28(B06):150-151. 被引量：5
5周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
6裘江南,李丽冬,吴力文.客观知识体系中的相关性研究[J].情报学报,2009,28(3):362-367. 被引量：2
7赵春利,石定栩.形容词与名词的语义组合模型研究[J].中文信息学报,2009,23(5):9-18. 被引量：9
8张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
9梁晓波,张飞,刘伍颖,马晓雷.基于语料库的军事本体构建[J].国防科技,2010,31(1):24-28. 被引量：3
10郭怀恩,朱礼军,徐硕.词聚类技术研究综述[J].数字图书馆论坛,2010(5):15-19. 被引量：2

同被引文献28

1黄毅,王庆林,刘禹.一种基于条件随机场的领域术语上下位关系获取方法[J].中南大学学报（自然科学版）,2013,44(S2):355-359. 被引量：5
2安新颖,冷伏海.基于非相关文献的知识发现原理研究[J].情报学报,2006,25(1):87-93. 被引量：36
3化柏林.基于NLP的知识抽取系统架构研究[J].现代图书情报技术,2007(10):38-41. 被引量：16
4胡宝顺,王大玲,于戈,马婷.基于句法结构特征分析及分类技术的答案提取算法[J].计算机学报,2008,31(4):662-676. 被引量：24
5张奇,金培权,岳丽华.基于CRF的网页动态关系抽取研究[J].中国科学技术大学学报,2010,40(11):1197-1202. 被引量：2
6张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
7张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81. 被引量：23
8董丽丽,李欢,张翔,刘闫锋.一种中文领域概念词自动提取方法研究[J].计算机工程与应用,2014,50(6):127-131. 被引量：5
9王娟,曹树金,姜灵敏,胡青.基于中文维基百科的领域概念相关性研究[J].图书情报工作,2014,58(23):136-142. 被引量：3
10陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261-267. 被引量：21

引证文献2

1高俊平,张晖,赵旭剑,杨春明,李波.面向维基百科的领域知识演化关系抽取[J].计算机学报,2016,39(10):2088-2101. 被引量：19
2高志君,郑俊生,安敬民.支持用户偏好查询的领域概念图模型[J].计算机工程与设计,2022,43(3):744-750. 被引量：1

二级引证文献20

1张华华,汪文义.“互联网+”测评:自适应学习之路[J].江西师范大学学报（自然科学版）,2016,40(5):441-455. 被引量：22
2张琴,郭红梅,张智雄.融合词嵌入表示特征的实体关系抽取方法研究[J].数据分析与知识发现,2017,1(9):8-15. 被引量：8
3金晨,谢振平,任立园,刘渊.基于时空域联合建模的领域知识演化脉络分析[J].智能系统学报,2017,12(5):735-744. 被引量：2
4王祎珺,高俊平.基于PageRank的领域知识图谱核心概念识别方法研究[J].数字技术与应用,2018,36(3):56-57. 被引量：2
5麻友,岳昆,张子辰,王笑一,郭建斌.基于知识图谱和LDA模型的社会媒体数据抽取[J].华东师范大学学报（自然科学版）,2018(5):183-194. 被引量：6
6代江波,毛建华,刘学锋,张鸿洋.基于特征向量与SVO扩展的企业生态关系抽取[J].计算机技术与发展,2018,28(10):139-144. 被引量：5
7杨小彦,张晖,赵旭剑.基于特征词的领域知识起源研究[J].电脑与信息技术,2018,26(2):5-8.
8阳小华,张硕望,欧阳纯萍.中文关系抽取技术研究[J].南华大学学报（自然科学版）,2018,32(1):66-72. 被引量：2
9孙艳,刘肖健,赵宇.团队创新中的异步协作行为及其对产出的影响[J].计算机集成制造系统,2018,24(12):3120-3128. 被引量：1
10蔡皎洁.AI中的文本信息抽取方法进展研究[J].湖北工程学院学报,2019,39(6):65-72. 被引量：3

1刘同明.一种改进的概念聚类数据挖掘方法[J].华东船舶工业学院学报,1999,13(1):62-66.
2郭华.对SQL查询语句语法及解题技巧的探讨[J].电脑编程技巧与维护,2016,0(17):55-55.
3程岚.浅谈企业数据容灾[J].华南金融电脑,2009(1):67-68.
4杨文飞.面对灾难,您准备好了吗?[J].中国计算机用户,2001(20):59-60. 被引量：1
5谭文斌,张太华,何二宝.基于多特征融合的产品评论语句相似度计算[J].贵州师范大学学报（自然科学版）,2016,34(1):81-87.
6党桦.浅议数据备份[J].中州建设,2004(10):68-68.
7董同强.大学生WLAN依存度调研报告——以山东省在校大学生为例[J].软件导刊,2013,12(12):6-8.
8陈磊,王云华,陈世鸿.基于概念的教育资源元素材聚类方法研究[J].武汉大学学报（理学版）,2005,51(3):347-350. 被引量：7
9别让IT成为推倒业务的“多米诺效应”之手[J].网管员世界,2012(12):11-11.
10杨辉虎.网络安全技术在风电场运营中的应用[J].网络安全技术与应用,2016(9):107-108. 被引量：4

哈尔滨工程大学学报

2015年第7期

浏览历史

内容加载中请稍等...

基于动词依存集的领域概念聚类方法被引量：2

参考文献17

二级参考文献57

共引文献26

同被引文献28

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于动词依存集的领域概念聚类方法 被引量：2

参考文献17

二级参考文献57

共引文献26

同被引文献28

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于动词依存集的领域概念聚类方法被引量：2