利用置信度重取样的SemiBoost-CR分类模型被引量：5

Advanced SemiBoost-CR Categorization Model Utilizing Confidence-Based Resampling

下载PDF

导出

摘要结合半监督学习和集成学习方法,提出了一种基于置信度重取样的SemiBoost-CR分类模型。给出了基于标注近邻与未标注近邻的置信度计算公式,按照置信度重采样,不仅选取一定比例置信度较高的未标注样本,而且选取一定比例置信度较低的未标注样本,分别以不同的策略加入到已标注的训练样本集。引入置信度高的未标注样本,用以提高基分类器的正确性(accuracy);而引入置信度低的未标注样本,目的则是进一步增加基分类器间的差异性(diversity)。对比实验表明,SemiBoost-CR分类模型能够有效提升Naive Bayesian文本分类器的性能。 This paper proposes SemiBoost-CR, an enhanced categorization model which utilizing the confidence- based resampling technique and incorporating semi-supervised learning with ensemble learning. The confidence score is derived from the nearer labeled neighbors and unlabeled neighbors of the example. According to the confidence-based resampling, not only the unlabeled examples with higher confidence score, but also the unlabeled ones with lower confidence score are selected and added to the labeled training set. The accuracy of the base classi- fier is to be improved by introducing the unlabeled data with higher confidence; the diversity among the base classifiers is further increased by introducing the unlabeled data with lower confidence. Experimental results show that SemiBoost-CR can boost the performance of Naive Bayesian text categorization.

作者唐焕玲鲁明羽

机构地区山东工商学院计算机科学与技术学院大连海事大学信息科学技术学院

出处《计算机科学与探索》 CSCD 2011年第11期1048-1056,共9页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金No.61073133 61175053 高等学校博士学科点专项科研基金No.20070151009~~

关键词 BOOSTING 半监督分类朴素贝叶斯置信度重取样 boosting semi-supervised categorization Naive Bayesian confidence resampling

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1石洪波,黄厚宽,王志海.基于Boosting的TAN组合分类器[J].计算机研究与发展,2004,41(2):340-345. 被引量：14
2唐焕玲,林正奎,鲁明羽,邬俊.一种结合独立性模型与差异评估的Co-Training改进方案[J].计算机研究与发展,2008,45(11):1874-1881. 被引量：7

二级参考文献26

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2Seeger M. Learning with labeled and unlabeled data [R]. Edinburgh, UK : Edinburgh University, 2001 被引量：1
3Blum A, Mitchell T. Combining labeled and unlabeled data with co-training [C] //Proc of the Workshop Computational Learning Theory. New York: ACM, 1998: 92-100 被引量：1
4Nigam K, Ghani R. Analyzing the effectiveness and applicability of co-training [C] //Proc of Int Conf on Information and Knowledge Management. New York:ACM, 2000: 86-93 被引量：1
5Zhou Y, Goldman S. Democratic co learning [C]//Proc of the 16th IEEE Int Conf on Tools with Artificial Intelligence. Washington: IEEE Computer Society, 2004:594-602 被引量：1
6Zhou Z-H, Li M. Tri training: Exploiting unlabeled data using three classifiers [J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(11) : 1529-1541 被引量：1
7Bickel S, Scheffer T. Estimation of mixture models using CoEM [C] //Proc of the 16th European Conf on Machine Learning. Berlin: Springer, 2005:35-46 被引量：1
8Muslea I, Minton S, Knoblock C. Active + semi-supervised learning=robust multi view learning [C]//Proc of the 19th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2002:435-442 被引量：1
9Cozman F, Cohen I, Cirelo M. Semi supervised learning of mixture models [C]//Proc of the 20th Int Conf on Machine Learning. Menlo Park, CA: AAAI Press, 2003:99-106 被引量：1
10Balcan M F, Blum A. A PAC-style model for learning from labeled and unlabeled data [C] //Proc of the 18th Annual Conf on Learning Theory. Berlin: Springer, 2005:111-126 被引量：1

共引文献17

1眭俊明,姜远,周志华.基于频繁项集挖掘的贝叶斯分类算法[J].计算机研究与发展,2007,44(8):1293-1300. 被引量：12
2李广群,王志海,田凤占.一种基于AdaBoost方法的树形HNB组合分类器[J].广西师范大学学报（自然科学版）,2007,25(4):164-167. 被引量：1
3党长青,刘洁,牛分中.基于Boosting RBF神经网络的入侵检测[J].计算机工程与应用,2008,44(15):118-120. 被引量：3
4范磊,李培,王开宇.TAN分类器及其在降水预报中的应用[J].海洋预报,2009,26(1):94-99.
5赵文清,朱永利,王晓辉.基于组合贝叶斯网络的电力变压器故障诊断[J].电力自动化设备,2009,29(11):6-9. 被引量：22
6林正奎,唐焕玲,鲁明羽,王敬东.基于特征多视图提升Naive Bayesian的Boosting改进算法[J].北京交通大学学报,2009,33(6):70-75. 被引量：1
7蔡月红,朱倩,孙萍,程显毅.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018. 被引量：8
8唐焕玲,鲁明羽,邬俊.基于投票信息熵的AdaBoost改进算法[J].控制与决策,2010,25(4):487-492. 被引量：5
9琚春华,殷贤君,许翀寰.结合自助抽样的动态数据流贝叶斯分类算法[J].计算机工程与应用,2011,47(8):118-121. 被引量：3
10Wei-Guo Yi,Jing Duan,Ming-Yu Lu.Double-layer Bayesian Classifier Ensembles Based on Frequent Itemsets[J].International Journal of Automation and computing,2012,9(2):215-220. 被引量：3

同被引文献36

1俞茂宏,彭一江.强度理论百年总结[J].力学进展,2004,34(4):529-560. 被引量：120
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
3邓超,郭茂祖.基于自适应数据剪辑策略的Tri-training算法[J].计算机学报,2007,30(8):1213-1226. 被引量：15
4范高锋,王伟胜,刘纯,戴慧珠.基于人工神经网络的风电功率预测[J].中国电机工程学报,2008,28(34):118-123. 被引量：360
5陈艳华,张振迎,景宝国.试算法在多维非稳态导热问题中的应用[J].建筑节能,2010,38(1):68-70. 被引量：8
6庞清乐.基于粗糙集理论的神经网络预测算法及其在短期负荷预测中的应用[J].电网技术,2010,34(12):168-173. 被引量：34
7陈昌松,段善旭,蔡涛,代倩.基于模糊识别的光伏发电短期预测系统[J].电工技术学报,2011,26(7):83-89. 被引量：72
8Wen-hua XU,Zheng QIN,Yang CHANG.Clustering feature decision trees for semi-supervised classification from high-speed data streams[J].Journal of Zhejiang University-Science C(Computers and Electronics),2011,12(8):615-628. 被引量：4
9代倩,段善旭,蔡涛,陈昌松,陈正洪,邱纯.基于天气类型聚类识别的光伏系统短期无辐照度发电预测模型研究[J].中国电机工程学报,2011,31(34):28-35. 被引量：163
10杜友田,辛刚,郑庆华.融合异构信息的网络视频在线半监督分类方法[J].西安交通大学学报,2013,47(7):96-101. 被引量：2

引证文献5

1唐建新,杨波,张宇宁.基于莫尔圆的煤岩体σ-τ一元线性回归模型检验[J].煤矿安全,2016,47(11):169-172.
2孙辉,冷建伟.基于改进的Semi Boost天气聚类的CC-PSO-DBN短期光伏发电预测[J].计算机应用与软件,2020,37(8):103-109. 被引量：5
3唐焕玲,刘艳红,郑涵,窦全胜,鲁明羽.融合SLDA主题模型的不均衡文本分类方法[J].计算机工程与应用,2021,57(12):144-154. 被引量：3
4李小娟,韩萌,王乐,张妮,程浩东.监督与半监督学习下的数据流集成分类综述[J].计算机应用研究,2021,38(7):1921-1929. 被引量：6
5蔡毅,朱秀芳,孙章丽,陈阿娇.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13. 被引量：33

二级引证文献47

1刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
2赵捍东,马焱,张玮,张磊,李营,李旭东.舰艇对空中来袭目标意图的预判方法[J].中国舰船研究,2018,13(1):133-139. 被引量：5
3任福龙,曹鹏,万超,赵大哲.结合代价敏感半监督集成学习的糖尿病视网膜病变分级[J].计算机应用,2018,38(7):2124-2129. 被引量：2
4闵帆,王宏杰,刘福伦,王轩.SUCE:基于聚类集成的半监督二分类方法[J].智能系统学报,2018,13(6):974-980. 被引量：4
5盛凯,刘忠,周德超,魏启航,冯成旭.一种基于证据理论的多类半监督分类算法[J].电子学报,2018,46(11):2642-2649. 被引量：4
6邱云飞,刘聪.基于协同训练的意图分类优化方法[J].现代情报,2019,39(5):57-63. 被引量：4
7赵建华,刘宁.面向高维数据的安全半监督分类算法[J].计算机系统应用,2019,28(5):178-184. 被引量：2
8刘雅璇,潘万彬.基于自我训练的长效垃圾分类方法[J].中国图象图形学报,2019,24(5):773-781. 被引量：7
9黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
10张鹏飞,董敏周,端军红.基于集成GMM聚类的少标记样本图像分类[J].西北工业大学学报,2019,37(3):465-470. 被引量：6

1成宝国,冯宏伟.一个基于Naive Bayesian垃圾邮件过滤器的改进[J].计算机技术与发展,2006,16(2):98-99. 被引量：3
2张超,秦永彬,黄瑞章.结合置信度和SVD的协同过滤算法[J].计算机与数字工程,2015,43(5):758-761. 被引量：3
3向騻,赵波,纪祥敏,张焕国.一种基于改进Fuzzing架构的工业控制设备漏洞挖掘框架[J].武汉大学学报（理学版）,2013,59(5):411-415. 被引量：6
4耿寅融,刘波.基于条件函数依赖的数据库一致性检测研究[J].计算机工程与应用,2012,48(3):122-125. 被引量：9
5罗文发,吴光强,郑松林.引入置信度方法的变参数路面附着系数非线性观测器[J].中南大学学报（自然科学版）,2013,44(S1):75-81.
6张军,戚飞虎.基于模糊算法的判决神经网络[J].上海交通大学学报,1998,32(8):31-35.
7王慧,王京,张彩云.基于区分矩阵的属性约简算法改进策略[J].武汉科技大学学报,2011,34(2):126-130. 被引量：4
8赵森严,夏琦.一种基于置信度的软件构件可信性度量模型[J].井冈山大学学报（自然科学版）,2013,34(4):64-66. 被引量：1
9李想.基于变精度粗糙集理论的决策树生成方法的研究[J].计算机光盘软件与应用,2014,17(7):302-303.
10刘涛,关亚文,熊焰,黄文超,陆琦玮.无人值守WSN中一种具有激励机制的信任管理模型[J].武汉大学学报（理学版）,2013,59(6):578-582.

计算机科学与探索

2011年第11期

浏览历史

内容加载中请稍等...

利用置信度重取样的SemiBoost-CR分类模型被引量：5

参考文献2

二级参考文献26

共引文献17

同被引文献36

引证文献5

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

利用置信度重取样的SemiBoost-CR分类模型 被引量：5

参考文献2

二级参考文献26

共引文献17

同被引文献36

引证文献5

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

利用置信度重取样的SemiBoost-CR分类模型被引量：5