一种融合多种信息的Web文档分类方法被引量：1

A method of Web document classification based on fusion of various information

下载PDF

导出

摘要当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法。鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类。实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度。 Most of the current Web document classification methods are based on text classification of the body text,and do not make good use of various information contained in the Web pages. In order to improve the classification accuracy of Web documents,this paper proposes a Web documents classification method utilizing various kinds of information,such as body text,description information,keywords,text related to the image,titles,and other special bold font text,etc. Since contributions of different information to the classification are different,we use genetic algorithm to set appropriate weights for all kinds of information,and finally use the support vector machine to classify the Web documents. Experimental results show that,compared with the method using only the body text to classify,the proposed fusion method can effectively improve the classification accuracy.

作者段国仑谢钧郭蕾蕾王晓莹 Duan Guolun1 ,Xic Jun1, Guo Lcilci2, Wang Xiaoying1(1. Institute of Command Control Engineering, Army Engineering University of PLA, Nanjing 210007, China ; 2. Institute of Communications Engineering, Army Engineering University of PLA, Nanjing 210007, Chin)

机构地区陆军工程大学指挥控制工程学院陆军工程大学通信工程学院

出处《信息技术与网络安全》 2018年第6期76-79,共4页 Information Technology and Network Security

关键词 WEB文档分类信息融合遗传算法支持向量机 Web document classification information fusion genetic algorithm support vector machine

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2牛洪波,丁华福.基于文本分类技术的信息过滤方法的研究[J].信息技术,2007,31(12):100-102. 被引量：3
3王金森..文本分类算法在垃圾邮件过滤中的研究与应用[D].吉林大学,2006:
4庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
5李荣陆..文本分类及其相关技术研究[D].复旦大学,2005:
6周明,孙树栋编著..遗传算法原理及应用[M].北京:国防工业出版社,1999:203.

二级参考文献24

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43. 被引量：1
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36. 被引量：1
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000.. 被引量：1
4[2]D.D.Lewis,Challenges in Machine Learning for Text Classification.The 9th Annual Conference on Computational Learning Theory.Italy,1996. 被引量：1
5[3]D.D.Lewis,Representation and Learning in Infor mation Retrieval,Doctoral Thesis,1992. 被引量：1
6[4]F.Debole,ESebastiani,An Analysis of the Relative Hardness of Reuters-21578 Subsets.Journal of the American Society for Information Science and Technology,Vol.56,No.6,2005. 被引量：1
7[5]F.Sebastiani,Machine Learning in Automated Text Categorization,ACM Computing Surveys,Vol.34,No.1,March 2002,pp.1-47. 被引量：1
8[6]K.Aas,L.Eikvil,Text Categorisation:A Survey.http://www.nr.no/files/samba/bamg/tm_survey.ps. 被引量：1
9[7]R.E.Schapire,Y.Singer.Improved Boosting Algorithms Using Confidence-Rated Predictions.Machine Learning,Vol.37,No.3,pp.297-336,1999. 被引量：1
10[8](美)Tom M.Mitchell著,曾华军,张银奎,等译.机器学习[M].机械工业出版社,2002. 被引量：1

共引文献308

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献4

1闫河,王鹏,董莺艳,罗成,李焕.基于深度CNN和极限学习机相结合的实时文档分类[J].计算机应用与软件,2019,36(3):174-179. 被引量：5
2马建刚,张鹏,马应龙.基于知识块摘要和词转移距离的高效司法文档分类[J].计算机应用,2019,39(5):1293-1298. 被引量：5
3王强,陈志豪,徐庆,鲍亮,廖祥文.基于生成式-判别式混合模型的可解释性文档分类[J].模式识别与人工智能,2020,33(11):995-1003. 被引量：1
4翁洋,谷松原,李静,王枫,李俊良,李鑫.面向大规模裁判文书结构化的文本分类算法[J].天津大学学报（自然科学与工程技术版）,2021,54(4):418-425. 被引量：11

引证文献1

1赵艳婷,梅源,苏延庆,宫明煜,林学.智慧军营网上党校中智能化文本分类应用设计[J].指挥信息系统与技术,2023,14(6):71-77.

1刘国雄.基于电子商务中web挖掘关键技术研究[J].湖北农机化,2017,0(5):69-69.
2韩春媛.关于《平法识图与钢筋算量》微信公众平台建设思路探索[J].四川水泥,2018(4):334-334. 被引量：1
3李琼,高明阳.中考短文填空题型分析与备考策略——以广东省英语中考题型为例[J].疯狂英语（新策略）,2017,0(7):71-72. 被引量：1
4付永毅.新《大纲》下概率教学的几点体会[J].科教导刊（电子版）,2018,0(9):205-205.
5刘红勤.Photoshop在网页制作中的应用研究[J].信息与电脑,2018,30(1):104-105. 被引量：3
6刘异,赵辉.基础教育文本资源搜索引擎网页机器人设计与实现[J].中国教育信息化,2017,23(19):37-40.
7张研.互联网背景下新媒体数字出版的界定及其发展策略研究[J].中国传媒科技,2018,0(6):109-110. 被引量：4
8李春波.浅议初中英语写作教学创新[J].祖国,2018,0(9):224-224.
9《文史》撰寫格式[J].文史,2018,0(1):194-194.
10王召义,薛晨杰,刘玉林.基于邻近词分析的电子商务技能需求分析[J].信息资源管理学报,2018,8(2):113-121. 被引量：7

信息技术与网络安全

2018年第6期

浏览历史

内容加载中请稍等...

一种融合多种信息的Web文档分类方法被引量：1

参考文献6

二级参考文献24

共引文献308

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种融合多种信息的Web文档分类方法 被引量：1

参考文献6

二级参考文献24

共引文献308

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种融合多种信息的Web文档分类方法被引量：1