类别不平衡的分类方法及在生物信息学中的应用被引量：26

A Classification Method for Class-Imbalanced Data and Its Application on Bioinformatics

下载PDF

导出

摘要提出一种处理正反例不平衡的分类方法,以解决生物信息学中的snoRNA识别、microRNA前体判别、SNP位点的真伪识别等问题.利用集成学习的思想,将反例集均匀分割并依次与正例集组合,得到一组类别平衡的训练集.然后对每个训练集采用不同原理的分类器进行训练,最后投票表决待测样本.为了避免弱分类器影响投票效果,结合AdaBoost思想,将每个分类器训练中产生的错误样本加入到下2个分类器的训练集中,既避免了AdaBoost的反复训练,又有效地利用投票机制遏制了弱分类器的影响.5组UCI测试数据和3组生物信息学实验证明了它在处理类别不平衡分类问题时的优越性. A classification method is proposed for class-imbalanced data,which is common in bioinformatics,such as identifying snoRNA,classifying microRNA precursors from pseudo ones,mining SNPs from EST sequences,etc.It is based on the main idea of ensemble learning.First,the big class set is divided randomly into several subsets equally,and it is made sure that every subset together with the small class set can make up a class-balanced training set.Then several different mechanism classifiers are selected and trained with these balanced training sets.After the multi-classifiers are built,they will vote for the last prediction when dealing with new samples.In the training phase,a strategy similar to AdaBoost is used.For each classifier,the samples will be added to the training sets of next two classifiers if they are misclassified.It is necessary to repeat modifying the training sets until a classifier can accurately predict its training set or reaching the maximum repeat times.This strategy can improve the performance of weak classifiers by voting.Experiments on five UCI data sets and three bioinformatics experiments mentioned above prove the performance of the method.Furthermore,a software program named LibID,which can be used as similarly as LibSVM,is developed for the researchers from bioinformatics and other fields.

作者邹权郭茂祖刘扬王峻

机构地区哈尔滨工业大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2010年第8期1407-1414,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60741001 60871092 60932008) 黑龙江省杰出青年科学基金项目(JC200611) 黑龙江省自然科学基金重点项目(ZJG0705)~~

关键词生物信息学类别不平衡非编码RNA识别 SNP位点鉴别分类 bioinformatics class imbalance ncRNA identification mining SNP from EST classification

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4李鹏,王晓龙,刘远超,王宝勋.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165. 被引量：16

二级参考文献65

1刘涵,郭勇,郑岗,刘丁.基于最小二乘支持向量机的图像边缘检测研究[J].电子学报,2006,34(7):1275-1279. 被引量：17
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3方景龙,陈铄,潘志庚,梁荣华.复杂分类问题支持向量机的简化[J].电子学报,2007,35(5):858-861. 被引量：9
4[2]Y Yang,JO Pedersen.A comparative study on feature selection in text categorization.In:Proc of the 14th Int'lConf on Machine Learning (ICML-97).San Francisco:Morgan Kaufmann Publishers,1997.412-420 被引量：1
5[3]NV Chawla,N Japkowicz,A Kotcz.Editorial:Special issue on learning from imbalanced data sets.SIGKDD Explorations Newsletters,2004,6(1):1-6 被引量：1
6[4]D Mladenic,M Grobelnk.Feature selection for unbalanced class distribution and naive bayes.In:Proc of the 16th Int'lConf on Machine Learning (ICML'99).San Francisco:Morgan Kaufmann Publishers,1999.258-267 被引量：1
7[6]Bong,Chih How,K Narayanan.An empirical study of feature selection for text categorization based on term weightage.IEEE/WIC/ACM Int'lConf on Web Intelligence(WI'04),Beijing,2004 被引量：1
8[7]Shoushan Li,Chengqing Zong.A new approach to feature selection for text categorization.IEEE Int'lConf on Natural Language Processing and Knowledge Engineering (NLP-KE),Wuhan,2005 被引量：1
9[8]Castillo MDd,Serrano JI.A multistrategy approach for digital text categorization from imbalanced documents.SIGKDD Explorations Newsletter,2004,6(1):70-79 被引量：1
10[9]Z Zheng,X Wu,R Srihari.Feature selection for text categorization on imbalanced data.SIGKDD Explorations,2004,6(1):80-89 被引量：1

共引文献79

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2辛宪会,叶秋果,滕惠忠,郭思海,李军,张靓,韩晓宏.小样本机器学习算法的特性分析与应用[J].海洋测绘,2007,27(3):16-19. 被引量：2
3刘文远,李芳,洪文学.基于多维数据雷达图表示的图形分类器研究[J].计算机工程与应用,2007,43(22):161-164. 被引量：14
4周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
5王树林,王戟,陈火旺,李树涛,张波云.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636-649. 被引量：17
6廖志芳,陈宇宙,樊晓平,瞿志华.面向非平衡混合数据的改进计数最近邻分类算法[J].计算机工程与应用,2008,44(12):139-141. 被引量：2
7李艳,范明.基于基本显露模式的电子邮件分类与过滤技术[J].南京大学学报（自然科学版）,2008,44(5):544-550. 被引量：3
8胡军,王国胤.覆盖粒度空间的层次模型[J].南京大学学报（自然科学版）,2008,44(5):551-558. 被引量：20
9皋军,王士同,邓赵红.广义的势支撑特征选择方法GPSFM[J].计算机研究与发展,2009,46(1):41-51. 被引量：6
10张丽娟,李舟军.微阵列数据癌症分类问题中的基因选择[J].计算机研究与发展,2009,46(5):794-802. 被引量：19

同被引文献193

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
4田凤占,黄丽,于剑,黄厚宽.包含隐变量的贝叶斯网络增量学习方法[J].电子学报,2005,33(11):1925-1928. 被引量：9
5耿新,周志华.Image Region Selection and Ensemble for Face Recognition[J].Journal of Computer Science & Technology,2006,21(1):116-125. 被引量：6
6刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8肖文兵,费奇.基于支持向量机的个人信用评估模型及最优参数选择研究[J].系统工程理论与实践,2006,26(10):73-79. 被引量：47
9林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：37
10王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23

引证文献26

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
3张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
4郭颖婕,刘晓燕,郭茂祖,邹权.植物抗性基因识别中的随机森林分类方法[J].计算机科学与探索,2012,6(1):67-77. 被引量：15
5秦传东,刘三阳,张市芳.基于不平衡数据分类的一种平衡模糊支持向量机[J].计算机科学,2012,39(6):188-190. 被引量：6
6胡始昌,江弋,林琛,邹权.基于集成分类器的蛋白质折叠模式识别[J].生物信息学,2012,10(2):112-115.
7周旭春,龚能平.系统性红斑狼疮甲亢1例[J].重庆医科大学学报,2000,25(2):215-215.
8于化龙,倪军,徐森.基于留一交叉验证的类不平衡危害预评估策略[J].小型微型计算机系统,2012,33(10):2287-2292. 被引量：5
9邱诚,王大海,任伟家,邹权.基于集成学习的音乐识别方法研究[J].计算机科学,2012,39(12):184-187. 被引量：4
10郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3

二级引证文献170

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：2
2郑建华,黄灏然,李晓龙.基于大数据小微企业信用评级模型研究[J].技术经济与管理研究,2020(7):22-26. 被引量：8
3石梦鑫,智佳,高翔,杨甲森.基于集成学习的遥测数据互相关结构知识发现[J].北京航空航天大学学报,2020,46(1):181-188. 被引量：3
4崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
5于重重,商利利,谭励,涂序彦,杨扬.半监督学习在不平衡样本集分类中的应用研究[J].计算机应用研究,2013,30(4):1085-1089. 被引量：8
6唐浩,刘洪,余汉勇,张浙峰,肖应辉,杨益善,陈立云.基于DUS测试的标准品种形态性状稳定性和重要性分析[J].作物学报,2013,39(4):632-641. 被引量：24
7陈鹏飞,杨飞,杜佳.基于环境减灾卫星时序归一化植被指数的冬小麦产量估测[J].农业工程学报,2013,29(11):124-131. 被引量：22
8郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3
9申丰山.基于预分类的FSVM[J].计算机科学,2013,40(9):230-233. 被引量：1
10郭东锋,姚忠达,徐迎波,舒俊生.基于化学成分的烤烟香型分类研究[J].湖南文理学院学报（自然科学版）,2013,25(4):85-89. 被引量：2

1刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3李倩倩,刘胥影.多类类别不平衡学习算法:EasyEnsemble.M[J].模式识别与人工智能,2014,27(2):187-192. 被引量：16
4胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
5黄莉,梁云,黄凤,姚继明.基于级联模型的输变电设备状态图像分类方法[J].信息技术,2015,39(6):28-31. 被引量：1
6王娟,罗庆生,韩宝玲,胡勇华,潘登,姚海芹,梁利军.图像处理技术在特殊目标识别中的应用[J].机械与电子,2006,24(11):59-61. 被引量：2
7如何识别墨盒的真伪[J].城市质量监督,2003(3):53-53.
8吕袁.微电脑——品牌机与兼容机的真伪识别[J].油运技术,1997(6):46-46.
9金士顿U盘真伪识别[J].电脑爱好者（普及版）,2011(A02):225-225.
10金士顿U盘真伪识别[J].电脑爱好者（普及版）,2010(7):96-96.

计算机研究与发展

2010年第8期

浏览历史

内容加载中请稍等...

类别不平衡的分类方法及在生物信息学中的应用被引量：26

参考文献4

二级参考文献65

共引文献79

同被引文献193

引证文献26

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

类别不平衡的分类方法及在生物信息学中的应用 被引量：26

参考文献4

二级参考文献65

共引文献79

同被引文献193

引证文献26

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

类别不平衡的分类方法及在生物信息学中的应用被引量：26