基于LSI和SVM分类法的定题邮件过滤研究被引量：1

Research for Intelligent and Customized Email Filtering Based on Latent Semantic Indexing and Support Vector Machine

下载PDF

导出

摘要潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类,通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。实验结果表明:基于LSI的特征选择的SVM分类算法是一种更有效的信息识别和文本分类方法,不但具有较好的分类性能,同时也能大大减小计算的复杂性。 Latent Semantic lndexing（LSl） is an effective method for Information Retrieval（IR）,and it also has been successfully applied to text classification.LSI can resolve the problems of polysemy and synonymy,and make the semantic relation between document and term turn more obvious through reducing noise in the raw document-term matrix.In this paper,in order to prevent and filter the unsolicited emails and harmful messages,under multi-languages （Chinese and English） circumstance an improving LSI approach was proposed for customized Email filtering system,Latent Semantic Model was applied to represent the predefined and filtered information categories,Support Vector Machine（SVM） algorithm was chosen to recognize and classify predefined and customized unsolicited and harmful information through Singular Value Decomposition （SVD） and positive examples supervised learning.The results of the experiment show that the approach based on LSI and SVM is a more effective approach to information identifying,it not only has a good filtering performance but also can greatly reduce the complexity of computation.

作者杨清李方敏

机构地区湖南科技大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2006年第35期168-171,共4页 Computer Engineering and Applications

基金湖南省自然科学基金资助项目(06JJ50132) 湖南省杰出青年基金项目(03JJY1012)。

关键词支持向量机潜在语义索引信息查询监护学习文本分类 Support Vector Machine （SV M ） Latent Semantic Indexing （LSI） Information Rctrieval （IR） supervised learning text classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献21

1LIU Tao,CHEN Zheng,ZHANG Ben-yu,et al.Improving text classification using local latent semantic indexing[C]//proc of ICDM 2004,2004:162-169. 被引量：1
2MEHRAN S,SUSAN D,DAVID H,et al.A Bayesian approach to filtering junk.e-mail[C]//proc of AAAI-98 Workshop on Learning for Text Categorization,1998:55-62. 被引量：1
3KARL-MICHAEL.Learning to filter junk e-mail from positive and unlabeled examples[C]//proc of IJCNLP-04,2004:602-607. 被引量：1
4HUANG Yan.Support Vector Machines for text categorization based on Latent Semantic Indexing[C]//proc of KDD'04,August 2004. 被引量：1
5LEWIN D D,RINGUUETTE M.A comparison of two learning algorithms for text categorization[C]//proc of the Third Annual Symposium on Document Analysis and Information Retrieval,1994:81-93. 被引量：1
6WIENER E,PEDERSEN J O,WEIGEND A S.A neural network approach to topic spotting[C]//proc of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95),1995:317-332. 被引量：1
7SCHUTZW H,HULL D,PEDERSEN J O.A comparison of classifiers and document representations for the routing problem[C]//proc of the 18th International ACM SIGIR Conference on Research and Development in Information Retrieval,1995:229-237. 被引量：1
8APTE C,DAMERAU F,WEISS S.Automated learning of decision rules for text categorization[J].ACM Transactions on Information System,1994,12 (3):233-251. 被引量：1
9JOACHINES T.Text categorization with support vector machines:learning with many relevant features[C]//proc of the 10th Eurospeech Conference on Machine Learning(ECML),1998:137-142. 被引量：1
10YANG Y.Noise reduction in a statistical approach to text categorization[C]//proc of SIGIR1995,1995:256-263. 被引量：1

二级参考文献6

1[1]Forrest S, Perrelason AS, Allen L, Cherukur R. Self_Nonself discrimination in a computer. In: Rushby J, Meadows C, eds. Proceedings of the 1994 IEEE Symposium on Research in Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1994. 202～212. 被引量：1
2[2]Ghosh AK, Michael C, Schatz M. A real-time intrusion detection system based on learning program behavior. In: Debar H, Wu SF, eds. Recent Advances in Intrusion Detection (RAID 2000). Toulouse: Spinger-Verlag, 2000. 93～109. 被引量：1
3[3]Lee W, Stolfo SJ. A data mining framework for building intrusion detection model. In: Gong L, Reiter MK, eds. Proceedings of the 1999 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1999. 120～132. 被引量：1
4[4]Vapnik VN. The Nature of Statistical Learning Theory. New York: Spring-Verlag, 1995. 被引量：1
5[5]Lee W, Dong X. Information-Theoretic measures for anomaly detection. In: Needham R, Abadi M, eds. Proceedings of the 2001 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 2001. 130～143. 被引量：1
6[6]Warrender C, Forresr S, Pearlmutter B. Detecting intrusions using system calls: Alternative data models. In: Gong L, Reiter MK, eds. Proceedings of the 1999 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1999. 133～145. 被引量：1

共引文献134

1李洋,方滨兴,郭莉.基于TSVM分类的网络入侵检测方法[J].计算机研究与发展,2007,44(z2):198-202.
2荆守波,高鹏翔.基于相空间重构和一类分类的异常入侵检测[J].电脑开发与应用,2004,17(8):11-12.
3刘评,汤志国,于海峰.网络入检测的快速规则匹配算法[J].海军工程大学学报,2004,16(5):71-73. 被引量：2
4杨敏,张焕国,傅建明,罗敏.基于支持向量数据描述的异常检测方法[J].计算机工程,2005,31(3):39-42. 被引量：17
5王勇,杨辉华,王行愚,何倩.基于最小二乘支持向量机的Linux主机入侵检测系统[J].计算机工程与应用,2005,41(2):120-124. 被引量：4
6彭宏,吴铁峰,张东娜.基于粗集理论和SVM算法的入侵检测方法研究[J].计算机工程,2005,31(8):157-158. 被引量：4
7许劲松,覃俊.一种基于支持向量机的入侵检测模型[J].计算机仿真,2005,22(5):43-45. 被引量：5
8侯方明,李大兴.一种新的基于协议树的入侵检测系统的设计[J].计算机应用研究,2005,22(7):150-152. 被引量：6
9彭新光,刘玉树,吴裕树,杨勇.Classification Model with High Deviation for Intrusion Detection on System Call Traces[J].Journal of Beijing Institute of Technology,2005,14(3):260-263.
10张义荣,肖顺平,鲜明,王国玉.基于机器学习的入侵检测技术概述[J].计算机工程与应用,2006,42(2):7-10. 被引量：15

同被引文献38

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
5顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
6何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
7王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
8王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
9刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
10陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14

引证文献1

1孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6

二级引证文献6

1武浩,王美姣,冯佳明,裴以建.专家检索研究进展[J].计算机应用研究,2010,27(10):3633-3638. 被引量：5
2谭学清,蔡军,罗琳.基于改进的LSI标签语义检索书目系统[J].图书馆学研究,2014(11):67-72. 被引量：1
3张世博,刘博爱,柳朝阳,张宝全.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2):37-42. 被引量：4
4刘忠宝,赵文娟.融合全局和局部特征的文本特征提取方法研究[J].情报探索,2016(1):1-3. 被引量：2
5龚浩,崔运鹏,钱平.面向农业图书资源语义挖掘的主题模型应用设计研究[J].图书馆理论与实践,2018,0(3):46-51. 被引量：2
6马欣.主题模型的发展及应用研究[J].电脑知识与技术,2018,14(5X):16-18.

1周序生,周咏梅,阳爱民.基于内容的中文网络信息自动过滤及发布系统[J].计算机工程与应用,2003,39(18):162-164.
2黄钢石,张亚非,陆建江,肖江.基于NMF的潜在语义模型在文本检索中的应用[J].解放军理工大学学报（自然科学版）,2004,5(2):36-39. 被引量：1
3谷峰,吴扬扬.文本分类关键技术[J].福建电脑,2006,22(9):5-6. 被引量：2
4张敏,李锋.PageRank算法研究[J].微计算机信息,2011,27(8):143-144. 被引量：1
5薛建春,段红梅,蔡松.定题搜索引擎的设计与实现[J].微计算机信息,2007,23(21):145-147. 被引量：4
6杨清,李方敏.基于潜在语义模型的SVM入侵检测研究[J].计算机工程与应用,2007,43(5):143-145.
7阳爱民,孙星明,李长云,周序生.可定题的中文网络信息自动发现系统[J].计算机工程与应用,2002,38(8):145-147. 被引量：1
8潘呈昀.探究图书馆个性服务管理中数据挖掘技术的应用[J].信息与电脑（理论版）,2014,0(2):184-185.
9邹永斌,陈兴蜀,王文贤.基于贝叶斯分类器的主题爬虫研究[J].计算机应用研究,2009,26(9):3418-3420. 被引量：17
10金小峰.一种大容量文本集的智能检索方法[J].计算机工程与应用,2011,47(7):143-145.

计算机工程与应用

2006年第35期

浏览历史

内容加载中请稍等...

基于LSI和SVM分类法的定题邮件过滤研究被引量：1

参考文献21

二级参考文献6

共引文献134

同被引文献38

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于LSI和SVM分类法的定题邮件过滤研究 被引量：1

参考文献21

二级参考文献6

共引文献134

同被引文献38

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于LSI和SVM分类法的定题邮件过滤研究被引量：1