中文文本分类相关算法的研究与实现被引量：12

Research and Implementation of Related Algorithm of Chinese Text Categorization

下载PDF

导出

摘要通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中.讨论了特征项的选择及权重的设定,并引进2χ统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时提出了项打分分类算法,提高了特征项对于文本分类的有效性.实验结果表明,改进后的权重计算方法性能更优越. On the basis of the analysis of the process of dealing with the Chinese word segmentation ambiguity, this paper covers bidirectional scan word segmentation algorithm based on the context. In order to improve the word segmentation dictionary, the authors put the fixed phrase into the dictionary and discussed the feature selectionand the weighting schema enactment in detail. In order to solve the problem of general TF-IDF weighting schema at present, we took statistics into consideration, and meanwhile put up the item-scoring method which improves the efficiency of the feature item about text categorization. At last we proved the advantage of the improved weighting schema through test.

作者徐沛娟李雄飞惠玥张桂林

机构地区吉林大学计算机科学与技术学院

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2009年第4期790-794,共5页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:60275026) "十一五"国家科技支撑计划重大项目基金(批准号:2006BAK01A33)

关键词文本分类上下文双向扫描向量空间模型权重特征选择 text categorization context bidirectional scan vector space model weighting schema feature selection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602. 被引量：26
2李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12
3屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
5唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
6王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
7单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
8都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002,28(11):137-138. 被引量：25
9Athanasios Kehagias,Vassilios Petridis,Vassilis G. Kaburlasos,Pavlina Fragkou. A Comparison of Word- and Sense-Based Text Categorization Using Several Classification Algorithms[J] 2003,Journal of Intelligent Information Systems(3):227～247 被引量：1
10Kamal Nigam,Andrew Kachites Mccallum,Sebastian Thrun,Tom Mitchell. Text Classification from Labeled and Unlabeled Documents using EM[J] 2000,Machine Learning(2-3):103～134 被引量：1

二级参考文献64

1陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4黄冉,郭嵩山.基于类别空间模型的文本分类系统的设计与实现[J].计算机应用研究,2005,22(8):60-63. 被引量：11
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
7尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
8冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129. 被引量：1
9周水庚.[D].上海:复旦大学,2000. 被引量：1
10王建会胡运发.基于等效半径的文本分类算法．技术报告:021011346[R].复旦大学,2002.. 被引量：1

共引文献539

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
4张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
5王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
8何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
9田冬阳.一种基于改进支持向量机的文本倾向性分类算法[J].微型电脑应用,2011(3):34-37. 被引量：3
10李一平,姚宏亮.C4.5算法在成绩分析中的应用[J].微型电脑应用,2011(6):51-53. 被引量：1

同被引文献105

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
6邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法[J].计算机工程与应用,2005,41(36):164-166. 被引量：6
7袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：57
8庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
10谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7

引证文献12

1李巍,孙涛,陈建孝,罗梓恒,李雄飞.基于加权余弦相似度的XML文档聚类研究[J].吉林大学学报（信息科学版）,2010,28(1):68-76. 被引量：10
2李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
3李鑫,王璐,林金花,韩冬,谷德山.4种计算自然常数e的方法及精度比较[J].东北师大学报（自然科学版）,2010,42(4):57-61. 被引量：4
4丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
5王飞,何学文.二元正态分离的特征词提取算法的研究与改进[J].黑龙江科技信息,2012(10):107-107.
6张凤琴,王磊,张水平,王鹏,程超.一种基于聚类加权的文本特征生成算法[J].计算机应用研究,2013,30(1):146-148. 被引量：3
7赵专政,李云翔.聚类加权和CS-LSSVM的文本分类[J].计算机工程与应用,2013,49(16):124-128. 被引量：4
8张人上,曲开社.一种基于新的特征选择的海量网络文本挖掘算法研究[J].计算机应用研究,2014,31(9):2632-2634. 被引量：9
9石文娟,龙舜,云飞.基于背景学习的迭代式文本分类框架[J].计算机工程与应用,2015,51(9):129-134. 被引量：2
10杨凡,任丹,丁函.计算机技术文本分类中的语义分析算法的实践探讨[J].软件,2019,40(6):78-80. 被引量：5

二级引证文献42

1郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
2山火.数字用户线技术发展的辩证[J].电子产品世界,2000,7(4):8-8.
3严志.基于UML的分类信息系统研究与设计[J].长沙民政职业技术学院学报,2012,19(3):130-131. 被引量：1
4张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
5张凤琴,王磊,张水平,王鹏,程超.一种基于聚类加权的文本特征生成算法[J].计算机应用研究,2013,30(1):146-148. 被引量：3
6朱建伟,刘荣.多线程并行快速求解e值的六种方法[J].现代计算机（中旬刊）,2013(6):15-20. 被引量：7
7赵专政,李云翔.聚类加权和CS-LSSVM的文本分类[J].计算机工程与应用,2013,49(16):124-128. 被引量：4
8王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
9张一洲.基于用户兴趣的个性化信息检索方法研究[J].现代情报,2015,35(6):25-28. 被引量：4
10周建友,张凯威.改进布谷鸟算法优化混合核LSSVM的卷烟销售量预测[J].计算机工程与应用,2015,51(19):250-254. 被引量：4

1李勇,张克亮.面向LDA和VSM模型的微博热点话题发现研究[J].自动化技术与应用,2016,35(8):52-57. 被引量：5
2王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
3何爱香.小“case”并非“小case”[J].考试周刊,2015,0(24):87-88.
4程传鹏,李钜.中文网页分类中特征提取的研究[J].中原工学院学报,2005,16(6):42-44. 被引量：2
5段震,王倩倩,张燕平,张铃.覆盖算法下文本分类特征选择的研究[J].计算机技术与发展,2008,18(11):29-31. 被引量：2
6张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
7修驰,宋柔.基于无监督学习的专业领域分词歧义消解方法[J].计算机应用,2013,33(3):780-783. 被引量：7
8张帆,张俊丽.统计频率算法在文本信息过滤系统中的应用[J].图书情报工作,2009,53(13):116-119. 被引量：4
9张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究[J].现代图书情报技术,2008(11):44-48. 被引量：3
10刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：95

吉林大学学报（理学版）

2009年第4期

浏览历史

内容加载中请稍等...

中文文本分类相关算法的研究与实现被引量：12

参考文献10

二级参考文献64

共引文献539

同被引文献105

引证文献12

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

中文文本分类相关算法的研究与实现 被引量：12

参考文献10

二级参考文献64

共引文献539

同被引文献105

引证文献12

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

中文文本分类相关算法的研究与实现被引量：12