基于依存句法网络的文本特征提取研究被引量：10

Research of Text Feature Extraction on Dependency Parsing Network

导出

摘要【目的】利用依存句法分析构建更准确的文本网络,提高基于网络图的文本特征提取方法的准确率。【方法】根据依存句法分析的结果确定特征词之间的语义关联,利用特征词依存方向确定其关联方向,采用改进的Page Rank算法计算节点重要性,并以此为指标进行特征提取。【结果】实验结果表明,相较共词网络,基于依存句法网络的特征提取方法能在一定程度上提高文本聚类的效果。【局限】利用依存关系确定特征词关联方向时没有对不同的依存类型进行区分。【结论】提出的基于依存句法网络的文本特征提取方法是有效的。 [Objective] In order to promote the accuracy of text feature extraction method based on network, this paper builds a more accurate text network by dependency parsing. [Methods] This method determines the semantic association between feature words according to the result of dependency parsing and the direction of the edges by dependent direction of feature words. And then the improved PageRank algorithm is used to calculate the network node importance to complete the feature extraction. [Results] Experimental results show that to some extent, text feature extraction based on dependency parsing network can improve the effect of document clustering, compared to co-word network. [Limitations] This paper does not distinguish different dependent type when determines the direction between feature words by dependent relationship. [Conclusions] The proposed method based on dependency parsing network is effective on the text feature extraction.

作者唐晓波肖璐

机构地区武汉大学信息资源研究中心

出处《现代图书情报技术》 CSSCI 北大核心 2014年第11期31-37,共7页 New Technology of Library and Information Service

基金国家自然科学基金项目"社会化媒体集成检索与语义分析方法研究"(项目编号:71273194)的研究成果之一

关键词特征提取依存句法分析复杂网络 Feature extraction Dependency parsing Complex network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献31

1赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
2Dumais S, Platt J,Heckerman D, et al. Inductive LearningAlgorithms and Representations for Text Categorization [C].In: Proceedings of the 7th International Conference onInformation and Knowledge Management (CIKM,98). NewYork: ACM, 1998: 148-155. 被引量：1
3Apte C, Damerau F, Weiss S M. Automated Learning ofDecision Rules for Text Categorization [J]. ACMTransactions on Information Systems, 1994, 12(3): 233-251. 被引量：1
4Joachims T. A Probabilistic Analysis of the RocchioAlgorithm with TFIDF for Text Categorization [C]. In:Proceedings of the 14th International Conference on MachineLearning (ICML,97). San Francisco: Morgan KaufmannPublishers Inc., 1997: 143-151. 被引量：1
5Yang Y, Pedersen J O. A Comparative Study on FeatureSelection in Text Categorization [C]_ In: Proceedings of the14th International Conference on Machine Learning(ICML,97). San Francisco: Morgan Kaufmann PublishersInc., 1997: 412-420. 被引量：1
6Church K W, Hanks P. Word Association Norms, MutualInformation, and Lexicography [J], Computational Linguistics,1990, 16(1): 22-29. 被引量：1
7Quinlan J R. Induction of Decision Trees [J]. MachineLearning, 1986, 1(1): 81-106. 被引量：1
8Mesleh A M A. Chi Square Feature Extraction Based SVMsArabic Language Text Categorization System [J]. Journal ofComputer Science, 2007, 3(6): 430-435. 被引量：1
9张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
10邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757. 被引量：3

二级参考文献147

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
3郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
4韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
5栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
6LIYong,WEILuoxia,NIUYi,YINJunxun.Structural organization and scale-free properties in Chinese Phrase Networks[J].Chinese Science Bulletin,2005,50(13):1304-1308. 被引量：6
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8王效岳,白如江.基于变精度粗糙集模型的Web文档分类方法[J].现代图书情报技术,2005(12):51-54. 被引量：2
9胡和平,易高翔.一种基于容错粗糙集的Web文档分类方法[J].小型微型计算机系统,2006,27(2):305-307. 被引量：3
10邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757. 被引量：3

共引文献350

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2徐翔,刘悦.远近与壁垒:社交网络传播中用户的“社会—信息嵌入”研究[J].中国新闻传播研究,2020(3). 被引量：1
3聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
4张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
5黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
6余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
7秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
8于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
9李剑锋,胡国平,王仁华.基于整句相似性计算的韵律短语预测模型[J].小型微型计算机系统,2006,27(10):1935-1938. 被引量：1
10杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34

同被引文献103

1毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
7胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
8徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
9王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
10bigdata爬虫开放平台[EB/OL].http://bigdataopc.ihep.ac.an.2013-10-30. 被引量：2

引证文献10

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2商宪丽,王学东.微博话题识别中基于动态共词网络的文本特征提取方法[J].图书情报知识,2016,33(3):80-88. 被引量：13
3张向阳,那日萨.基于复杂网络的情感分类特征选择[J].计算机应用研究,2017,34(4):1000-1003. 被引量：4
4李园,吕艳华,贺培凤.国内卫生信息管理教材建设现状及思考[J].医学信息学杂志,2017,38(8):88-93. 被引量：1
5蔡文嘉.基于依存句法关系的在线评论情感属性的降维[J].经营管理者,2018,0(3):165-167.
6毛大鹏.基于类内分布信息的文本特征提取方法[J].信息与电脑,2017,29(20):57-59.
7臧国全,王家振,毕崇武,耿瑞利.政府数据中敏感数据识别与隐私计量研究[J].图书情报工作,2022,66(15):66-75. 被引量：7
8杨雯丹,曹国忠.基于依存句法和语义网络的用户需求识别方法[J].机械设计,2022,39(10):154-160. 被引量：2
9肖洋,臧国全.个人金融数据的敏感性识别与隐私计量研究[J].情报理论与实践,2023,46(9):105-114. 被引量：6
10张丽,马静.一种基于“特征降维”文本复杂网络的特征提取方法[J].情报科学,2019,0(10):20-25. 被引量：10

二级引证文献44

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2王玮,郭创拓.科技金融数据信息流通的现实风险与法律监管[J].法治论坛,2023(3):34-49. 被引量：1
3赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
4陈锋.基于控制系统与主题挖掘的网络文本信息提取方案研究[J].自动化应用,2017(10):33-34.
5吴雨,刘媛华.基于最近最远邻和互信息的特征选择方法[J].计算机应用研究,2017,34(12):3713-3716. 被引量：7
6纪雪梅,徐新然.结合用户位置信息的社交媒体话题空间分布研究[J].情报资料工作,2018,39(5):41-49.
7王阳.基于改进RBF神经网络的微博舆情预测研究[J].创新科技,2016,16(12):32-35.
8徐静,张文学.药品安全话题发现技术研究[J].软件导刊,2019,18(5):151-154.
9管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术,2019,42(21):182-186. 被引量：1
10黄贤英,刘广峰,刘小洋,阳安志.基于word2vec和双向LSTM的情感分类深度模型[J].计算机应用研究,2019,36(12):3583-3587. 被引量：43

1赵辉,刘怀亮,张倩.一种基于复杂网络的中文文本分类算法[J].情报学报,2012,31(11):1179-1186. 被引量：8
2张志远,霍纬纲.一种基于PL-LDA模型的主题文本网络构建方法[J].复杂系统与复杂性科学,2017,14(1):52-57. 被引量：2
3粟立.在信息交流中超文本网络的作用[J].电子与自动化仪表信息,1994(2):80-82.
4贾爱芹,徐贵力.基于运动平台的运动目标检测与跟踪[J].佳木斯大学学报（自然科学版）,2009,27(2):171-173. 被引量：2
5刘建毅,王菁华,王枞.文本网络表示研究与应用[J].中国科技论文在线,2007,2(10):755-760. 被引量：2
6曹珊珊.智能电视人机交互-手势识别技术综述[J].中国科技博览,2015(48):169-169.
7“十二五”信息业发展五大方向确定[J].中国信息化,2010(23):7-7.
8温津伟,陈恩义,韩臻.多文本网络多向分组交谈会议系统的研究[J].铁路计算机应用,1999,8(1):33-35.
9陈东平.当好网吧老板之大方向确定篇[J].电脑爱好者,2001(9):48-48.
10模式识别[J].电子科技文摘,2002,0(6):140-142.

现代图书情报技术

2014年第11期

浏览历史

内容加载中请稍等...

基于依存句法网络的文本特征提取研究被引量：10

参考文献31

二级参考文献147

共引文献350

同被引文献103

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于依存句法网络的文本特征提取研究 被引量：10

参考文献31

二级参考文献147

共引文献350

同被引文献103

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于依存句法网络的文本特征提取研究被引量：10