文本自动分类系统文本预处理方法的研究被引量：15

Study on New Pretreatment Method for Chinese Text Classification System

下载PDF

导出

摘要在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。 Presents a new text pretreatment method that applying programme flows control to eliminate the single Chinese word, pure English words, number and Chinese words containing English letter or maths symbol from the original text vector. Consequently the features that represent the text turn into the pure Chinese term. As a result, not only dimension of original text vector is deduced greatly but the information contents of text vector are improved enormously.

作者周钦强孙炳达王义

机构地区广东工业大学自动化学院广东技术师范学院

出处《计算机应用研究》 CSCD 北大核心 2005年第2期85-86,共2页 Application Research of Computers

关键词文本分类文本预处理停用词中文分词 Text Classification Text Pretreatment Stop-words Chinese Term

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
2庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
3陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
4孟遥,李生,赵铁军,曹海龙.四种基本统计句法分析模型在汉语句法分析中的性能比较[J].中文信息学报,2003,17(3):1-8. 被引量：10
5Kjersti Aas,et al. Text Classification: A Survey[ M]. 1999. 被引量：1
6Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization[ J]. Information Retrieval, 1999,1 ( 1/2 ) :67-88. 被引量：1
7Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods[ C]. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) , 1999. 42-49. 被引量：1

二级参考文献21

1靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
2黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43. 被引量：1
3鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36. 被引量：1
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000.. 被引量：1
5杨沐昀赵铁军于浩.自底向上的汉语句法标注体系设计与实践[A].黄昌宁主编.自然语言理解与机器翻译[C].南京清华大学出版社,2001.160—166. 被引量：1
6C.D. Manning H. Schutze Foundations of statistical natural language processing The MIT Press. Cambridge, Massachusetts, London, England,. 被引量：1
7T. L. Booth and R. A. Thompson. Applying Probability Measures to Abstract Languages. IEEE Transactions on Computers, 1973,C- 22(5), :442-450. 被引量：1
8E, Black F. Jelinek J. Lafferty D, Magerman Towerds history-based grammars: using richer models for probabilistic parsing in Proc.ACL'93,Columbus,OH,1993:31-37 被引量：1
9David M. Magerman. Natural Language Parsing as Statistical Pattern Recognition. Ph.D. thesis Stanford University. 1994. 被引量：1
10Marcus, Mitehell Deterministic Parsing and Description Theory in P. Whitelock, M. Wood, H. Somers & P.Bennett (eds) Linguistie Theory and Computer Applications, New York, Academic Press, 1980:69-112. 被引量：1

共引文献463

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
4李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
5蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
6赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
7孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
8徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
9杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
10谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.

同被引文献151

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：275
4程泽凯 ,林士敏 .文本分类器准确性评估方法[J].情报学报,2004,23(5):631-636. 被引量：13
5王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
6孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
7费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
8谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
9顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
10李彦平,张佳骥.文本聚类中的降维技术研究[J].无线电工程,2005,35(6):51-53. 被引量：8

引证文献15

1《自然杂志》征稿简则[J].自然杂志,2004,26(6):372-372. 被引量：1
2盛秋艳.文本自动分类技术的研究[J].交通科技与经济,2006,8(3):92-93.
3王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量：2
4化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
5李英.基于词性选择的文本预处理方法研究[J].情报科学,2009,27(5):717-719. 被引量：7
6杨贺,杨奕虹,乔晓东,李宁,朱礼军.用于计算机辅助文献标引加工系统的自然语言词表构建[J].现代图书情报技术,2010(6):17-24. 被引量：6
7张野,杨建林.基于KNN和SVM的中文文本自动分类研究[J].情报科学,2011,29(9):1313-1317. 被引量：10
8朱平,费本华,范少辉,王虎.基于本体的自动文摘方法研究与实现[J].计算机与现代化,2013(3):34-37.
9唐祥彬,陆伟,张晓娟,黄诗豪.查询专指度特征分析与自动识别[J].现代图书情报技术,2015(2):15-23. 被引量：5
10珠杰,李天瑞.藏文停用词选取与自动处理方法研究[J].中文信息学报,2015,29(2):125-132. 被引量：8

二级引证文献132

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：8
2楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S01):47-55. 被引量：2
3雷刚,冷荣秋,林思扬.一种计算机领域英汉双语语料库平台的构建[J].科技广场,2009(9):132-135.
4江耿豪.基于FAQ的自动答疑系统的设计与实现[J].计算机时代,2009(12):39-41. 被引量：4
5江耿豪.基于VisualProlog的自动答疑系统设计与实现[J].现代教育技术,2010,20(7):122-125. 被引量：3
6程肖,陆蓓,谌志群.热点主题词提取方法研究[J].现代图书情报技术,2010(10):43-48. 被引量：5
7周国强,崔荣一.基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J].中文信息学报,2011,25(4):16-19. 被引量：13
8巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011,25(4):35-38. 被引量：6
9刘里,刘小明.基于分隔符和上下文术语的领域现象术语抽取[J].华南理工大学学报（自然科学版）,2011,39(7):146-149. 被引量：6
10郑炜冬,江耿豪.网络答疑系统的研究、设计与实现[J].中国现代教育装备,2012(3):36-38. 被引量：2

1王永成,苏海菊,莫燕.中文词的自动办理[J].中文信息学报,1990,4(4):1-11. 被引量：13
2胡莉.中文“词”的语言模型识别研究方法综述[J].北方文学（下）,2011(3):90-90.
3黄婕.基于Hadoop平台的HITS算法[J].计算机系统应用,2014,23(3):142-148. 被引量：1
4焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
5胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
6探秘Word XP翻译功能[J].电脑采购,2002,0(6):23-23.
7马震安.吃金币记单词游戏课件巧制作[J].电脑爱好者,2016,0(9):54-55.
8李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27. 被引量：30
9史金成,程转流.基于混合聚类的中文词聚类[J].微计算机信息,2010,26(15):222-223. 被引量：4
10焦慧,刘迁,贾惠波.基于词平台的中文文档实验系统的构建[J].微计算机信息,2008,24(18):171-172. 被引量：1

计算机应用研究

2005年第2期

浏览历史

内容加载中请稍等...

文本自动分类系统文本预处理方法的研究被引量：15

参考文献7

二级参考文献21

共引文献463

同被引文献151

引证文献15

二级引证文献132

相关作者

相关机构

相关主题

浏览历史

文本自动分类系统文本预处理方法的研究 被引量：15

参考文献7

二级参考文献21

共引文献463

同被引文献151

引证文献15

二级引证文献132

相关作者

相关机构

相关主题

浏览历史

文本自动分类系统文本预处理方法的研究被引量：15