基于背景学习的迭代式文本分类框架被引量：2

Iterative text classification framework based on background learning

下载PDF

导出

摘要随着网络文本数据呈指数级增长,信息的人工分类和管理逐渐被计算机自动分类所替代,相关领域经过多年的研究和发展已经开发出一些相对成熟的算法。研究分析发现:在文本预处理阶段歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。结合互信息度理论,提出一种基于背景学习的迭代式框架,在此基础上通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法,并使用新浪网不同类别数据对提出的迭代式框架进行实验评估,实验结果表明提出的基于背景学习的迭代式文本分类框架可行有效。 The exponential growth of text-based information on Internet has boosted a growing demand for automatic text classification techniques. Various algorithms have been proposed after decades of research. However, distinction of ambig-uous phrases at text preprocessing phase is considered of vital importance for accuracy in automatic text classification, which remains to be solved comprehensively and convincingly. This paper presents a background-based iterative frame-work integrated with the mutual information theory. When applied to text preprocessing, it improves the traditional Naive Bayesian model based text classification algorithms. Experimental results based on data from various Sina categories show that this proposed framework is both feasible and effective.

作者石文娟龙舜云飞

机构地区暨南大学信息科学技术学院计算机系

出处《计算机工程与应用》 CSCD 北大核心 2015年第9期129-134,157,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61272073) 广东省自然科学基金(No.S2013020012865)

关键词背景知识迭代互信息度朴素贝叶斯文本分类歧义消除 background knowledge iteration mutual information Naive Bayesian text categorization disambiguation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1张博锋,苏金树,徐昕.基于机器学习的文本分类研究综述[J].软件学报,2005,16(6). 被引量：1
2修驰,宋柔.基于无监督学习的专业领域分词歧义消解方法[J].计算机应用,2013,33(3):780-783. 被引量：7
3徐沛娟,李雄飞,惠玥,张桂林.中文文本分类相关算法的研究与实现[J].吉林大学学报（理学版）,2009,47(4):790-794. 被引量：12
4唐焕玲著..基于半监督与集成学习的文本分类方法[M].北京:电子工业出版社,2013:179.
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
7靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
8Maron M E,Kuhns J L.On relevance,probabilistic indexing and information retrieval[J].Journal of the ACM(JACM),1960,7(3):216-244. 被引量：1
9高淑琴.Web文本分类技术研究现状述评[J].图书情报知识,2008,25(3):81-86. 被引量：7
10Dini L,Di Tomaso V,Segond F.Word sense disambiguation with functional relations[C]//Proceedings of LREC,1998. 被引量：1

二级参考文献157

1付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
10王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15

共引文献347

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
3叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
6黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
7尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
8王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
9陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
10常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.

同被引文献7

1徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
2陆彦婷,陆建峰,杨静宇.层次分类方法综述[J].模式识别与人工智能,2013,26(12):1130-1139. 被引量：20
3吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
4杨宇婷,王名扬,田宪允,李鹏宇.基于文档分布式表达的新浪微博情感分类研究[J].情报杂志,2016,35(2):151-156. 被引量：16
5唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：142
6夏从零,钱涛,姬东鸿.基于事件卷积特征的新闻文本分类[J].计算机应用研究,2017,34(4):991-994. 被引量：19
7代令令,蒋侃.基于fastText的中文文本分类[J].计算机与现代化,2018(5):35-40. 被引量：19

引证文献2

1代令令,蒋侃.基于fastText的中文文本分类[J].计算机与现代化,2018(5):35-40. 被引量：19
2吴震,冉晓燕,苗权,刘纯艳,张栋,魏娜.基于fastText算法的行业分类技术[J].北京航空航天大学学报,2022,48(2):193-198. 被引量：5

二级引证文献24

1唐红涛,余佳鹏,陈捷.文本分析视角下数字乡村政策量化研究——基于FastText和文本挖掘方法[J].知识管理论坛,2024(3):237-252.
2张曼,夏战国,刘兵,周勇.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,2020,56(5):166-172. 被引量：10
3刘明明,李震霄,郑丽丽.基于双向循环神经网络的字符级文本分类[J].江苏建筑职业技术学院学报,2019,19(4):29-34. 被引量：1
4陶源,彭艳兵.基于门控CNN-CRF的中文命名实体识别[J].电子设计工程,2020,28(4):42-46. 被引量：11
5王光慈,汪洋.基于FastText的短文本分类[J].电子设计工程,2020,28(3):98-101. 被引量：5
6付顺顺.基于FastText的赌博网站识别方法[J].网络安全技术与应用,2020(8):150-151. 被引量：5
7冉亚鑫,韩红旗,张运良,翁梦娟,高雄,彭柯芸.基于Stacking集成学习的大规模文本层次分类方法[J].情报理论与实践,2020,43(10):171-176. 被引量：13
8林国祥,詹先银,薛醒思,林涵,吕宏昱,林培辉,方铭波.基于fastText的股票咨询案例中文短文本分类技术[J].宝鸡文理学院学报（自然科学版）,2020,40(3):48-52. 被引量：2
9陈德意,张宏怡,刘彩玲,张光斌.基于关键词策略和CNN的中文文本有害信息分类[J].集美大学学报（自然科学版）,2020,25(5):392-400.
10沈雅婷,左志新.商品名称短文本快速有效分类的多基模型框架[J].计算机应用与软件,2021,38(2):185-190. 被引量：1

1温雯,郝志峰,邵壮丰.结合分水岭机制的有监督图像背景分割算法[J].计算机工程与应用,2011,47(21):205-209. 被引量：1
2谭晓军,沈伟,郭志豪.交通场景中运动分割问题的研究[J].计算机工程,2006,32(5):169-171. 被引量：1
3王胜华,牛建伟,汪孔桥,马健,陈灿峰.基于帧间信息度优化的H.264码率控制算法[J].微电子学与计算机,2009,26(11):150-152.
4张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
5谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1
6丁德志,侯德文.具有自适应能力的背景模型构建算法[J].计算机工程与设计,2009,30(1):219-221. 被引量：3
7卢荣锐,彭志平.基于MABC算法的云计算资源调度策略[J].信息技术,2013,37(6):97-99. 被引量：3
8梁达平.数据仓库在关系数据库中的特殊实现技术[J].科技信息,2011(24).
9韩绍金,李建勋.基于密度核估计的贝叶斯网络结构学习算法[J].计算机工程与应用,2014,50(15):107-112. 被引量：6
10郭剑峰,陈潇君,朱炜,陈小波.一种结合最小熵信息度量和粒子群优化算法的基因选取方法[J].计算机应用与软件,2014,31(12):283-286. 被引量：1

计算机工程与应用

2015年第9期

浏览历史

内容加载中请稍等...

基于背景学习的迭代式文本分类框架被引量：2

参考文献19

二级参考文献157

共引文献347

同被引文献7

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于背景学习的迭代式文本分类框架 被引量：2

参考文献19

二级参考文献157

共引文献347

同被引文献7

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于背景学习的迭代式文本分类框架被引量：2