一种用于大规模文本分类的特征表示方法被引量：12

Method of expressing features used for large-scale text classification

下载PDF

导出

摘要随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公式为基础,提出了以应用于文本分类为目的的权值改进公式p-idf公式。在比较了贝叶斯、K近邻、神经网络和支持向量机四种典型的文本分类器的基础上,采用支持向量机分类器搭建了一个文本分类试验系统。经过科学的试验比较了tf-idf、p-idf、LTC三种权值公式在文本分类系统中对分类器性能的影响,证实了所提出的p-idf公式的合理性和有效性。 Along with the technical development of network and information technology,the text categorization becomes the key technique on processing and organizing large scale of texts.How to characterize the text exactly as a data set that can be processed is a key problem that restricts the improvement of text categorization results seriously.The author brings up a formula used to characterize the text named p-idf based on the vector space model and ff-idf.After comparing Bayes ,K neighbors,neural network and support vector machine these four typical text categorization devices,the author builds a text categorization system using support vector machine.After a scientifical test which displays the impact to the text categorization system of these three formula ff-idf, p-idf,LTC,we can conclude that the p-idf formula is reasonable and valid to a text categorization system.

作者郝春风王忠民

机构地区北京科技大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 2007年第15期170-172,共3页 Computer Engineering and Applications

关键词文本分类向量空间模型 p-idf 支持向量机 text categorization vector space model p-idf Support Vector Machine（SVM）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Joachims T.Text categorization with support vector machines:learning with many relevant features,LS-8 Report 23[R].Dortmund:University of Dortmund Computer Science Department,1998. 被引量：1
2张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：5
3CristianiniN Shawe-TaylorJ 李国正译.支持向量机导论[M].北京:电子工业出版社,2004.. 被引量：111
4Li B L,Yu S W,Qin Lu.An improved k-nearest neighbor algorithm for text categorization[C]//Proc of the 20th Int'l Conf on Computer Processing of Oriental Languages.Beijing:Tsinghua University Press,2003. 被引量：1
5庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
6陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C]..Advances in Computation of Oriental Languages[C].北京:清华大学出版社,2003.. 被引量：9

二级参考文献8

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43. 被引量：1
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36. 被引量：1
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000.. 被引量：1
4黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页被引量：1
5鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页被引量：1
6卜东波，博士学位论文，2000年被引量：1
7Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页被引量：1
8Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页被引量：1

共引文献414

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献117

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
7宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
8孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16
9宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
10王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20

引证文献12

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2刘怀亮,张治国,马志辉,赵捧未.基于KNN的中文文本分类反馈学习研究[J].图书情报工作,2008,52(10):101-104. 被引量：3
3邢海燕,祝咏晨.基于模糊相关的文本特征选择方法[J].现代计算机,2008,14(12):86-88.
4倪洁琼,吴耿锋,郑宇.基于关系权重的文本表示法[J].计算机应用与软件,2009,26(5):68-69.
5赵俊杰.论文抄袭检测中特征选择[J].计算机系统应用,2009,18(9):101-103. 被引量：3
6肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
7金小峰.一种大容量文本集的智能检索方法[J].计算机工程与应用,2011,47(7):143-145.
8鲍蕾,黄曙光,李永亮.基于商空间粒度合成的中文文本表示法[J].小型微型计算机系统,2011,32(12):2434-2438.
9唐喆,曹旭东.网页分类中特征选择方法的研究[J].电子设计工程,2016,24(5):120-122. 被引量：3
10温伟.一种增量贝叶斯分类模型[J].电子技术与软件工程,2016(17):177-177.

二级引证文献25

1任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
2施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
3赵俊杰,盛剑锋,陶新民.一种基于特征加权的KNN文本分类算法[J].电脑学习,2010(2):84-86. 被引量：4
4胡改蝶,马建芬.文本分类中一种特征选择方法的改进[J].计算机与现代化,2011(5):20-21. 被引量：1
5路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
6王欢,武刚,杨抒.基于文本分类的林业Web黄页分类系统[J].计算机系统应用,2012,21(1):21-24. 被引量：2
7徐勇,司凤山,吴延辉,陈建国,周善英.基于概念泛化的科技文献推荐算法[J].图书情报工作,2012,56(21):101-108. 被引量：3
8徐勇,华文立,沈小玲,司凤山,周善英.科技文献查询推荐系统设计[J].图书情报工作,2013,57(4):131-137.
9许文婕.国际儿科临床期刊PEDIATRICS文献计量学分析[J].中华实用儿科临床杂志,2013,28(4):311-314. 被引量：1
10魏紫京,孟繁疆,郭俊军.基于农业信息搜索引擎分类器的设计与实现[J].农机化研究,2014,36(3):186-189. 被引量：2

1邓擘,樊孝忠,杨立公.基于统计分布与集合论的文本分类方法[J].北京理工大学学报,2006,26(7):589-592. 被引量：2
2赵鹏.基于支持向量机的文本分类方法研究[J].齐齐哈尔大学学报（自然科学版）,2008,24(1):55-60.
3张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9
4朱茜,覃华,冯志新,陈晨.一种大规模文本分类大间隔近邻算法[J].计算机与现代化,2016(6):68-72. 被引量：1
5何海斌,司建辉.大规模文本分类中特征提取方法的比较研究[J].电脑知识与技术,2009,5(7X):5768-5769.
6刘勇,王志亮,黄玉龙.GPU平台上大规模文本分类的研究[J].计算机工程与应用,2012,48(8):141-143. 被引量：2
7王红滨,刘大昕,王念滨,王桐.一种本体学习中的领域概念筛选算法[J].系统工程与电子技术,2010,32(1):175-178. 被引量：5
8丽台推出新款网络摄像机[J].中国多媒体视讯,2004(11):31-31.
9邵海杨.触摸Linux加速器——LTC[J].开放系统世界,2003(9):26-30.
10博世LTC0485／10C彩色摄像机[J].A&S（安全&自动化）,2009(8):143-143.

计算机工程与应用

2007年第15期

浏览历史

内容加载中请稍等...

一种用于大规模文本分类的特征表示方法被引量：12

参考文献6

二级参考文献8

共引文献414

同被引文献117

引证文献12

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种用于大规模文本分类的特征表示方法 被引量：12

参考文献6

二级参考文献8

共引文献414

同被引文献117

引证文献12

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种用于大规模文本分类的特征表示方法被引量：12