基于加权边界度的稀有类检测算法被引量：6

Rare Category Detection Algorithm Based on Weighted Boundary Degree

下载PDF

导出

摘要提出了一种快速的稀有类检测算法——CATION(rare category detection algorithm based on weightedboundary degree).通过使用加权边界度(weighted boundary degree,简称WBD)这一新的稀有类检测标准,该算法可利用反向k近邻的特性来寻找稀有类的边界点,并选取加权边界度最高的边界点询问其类别标签.实验结果表明,与现有方法相比,该算法避免了现有方法的局限性,大幅度地提高了发现数据集中各个类的效率,并有效地缩短了算法运行所需要的运行时间. This paper proposes an efficient algorithm named CATION（rare category detection algorithm based on weighted boundary degree） for rare category detection.By employing a rare-category criterion known as weighted boundary degree（WBD）,this algorithm can make use of reverse k-nearest neighbors to help find the boundary points of rare categories and selects the boundary points with maximum WBDs for labeling.Extensive experimental results demonstrate that this algorithm avoids the limitations of existing approaches,has a significantly better efficiency on discovering new categories in data sets,and effectively reduces runtime,compared against the existing approaches.

作者黄浩何钦铭陈奇钱烽何江峰马连航

机构地区浙江大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2012年第5期1195-1206,共12页 Journal of Software

基金教育部-英特尔信息技术专项科研基金(MOE-INTEL-11-06)

关键词稀有类检测边界点检测加权边界度 K近邻反向k近邻 rare category detection boundary point detection weighted boundary degree k-nearest neighbor reverse k-nearest neighbor

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1邓超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法[J].软件学报,2008,19(3):663-673. 被引量：30
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
3薛丽香,邱保志.基于变异系数的边界点检测算法[J].模式识别与人工智能,2009,22(5):799-802. 被引量：20

二级参考文献43

1邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人工智能,2006,19(2):277-280. 被引量：13
2邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
3Han Jiawei, Kamber M. Data Mining : Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001. 被引量：1
4Xia Chenyi, Hsu W, Lee M L, et al. BORDER: Efficient Computation of Boundary Points. IEEE Trans on Knowledge and Data Engineering, 2006, 18(3) : 289 -303. 被引量：1
5Hsu C M, Chen M S. Subspace Clustering of High Dimensional Spatial Data with Noises// Proc of the Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Sydney, Australia, 2004:31 -40. 被引量：1
6Breunig M M, Kriegel H P, Ng R T, et al. LOF: Identifying Density-Based Local Outliers// Proc of the ACM SIGMOD International Conference on Management of Data. Dalles, USA, 2000:93 - 104. 被引量：1
7Karypis G, Ham E H, Kumar V. Chameleon : A Hierarchical Clustering Algorithm Using Dynamic Modeling. IEEE Computer, 1999, 32 (8) : 68 -75. 被引量：1
8Han Jia-Wei,Kamber Micheline Data Mining:Concepts and Techniques (2nd Edition).San Francisco:Morgan Kaufmann Publishers,2006 被引量：1
9Hawkins D.Identification of Outliers.London:Chapman and Hall,1980 被引量：1
10Knorr E,Ng R.Algorithms for mining distance-based outliers in large datasets//Proceedings of the 24th VLDB Conference.New York,1998:392-403 被引量：1

共引文献142

1张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
2薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
3胡正平,高文涛,万春艳.基于样本不确定性和代表性相结合的可控主动学习算法研究[J].燕山大学学报,2009,33(4):341-346. 被引量：4
4李尼格,鲍培明,沙露.一种基于面包含关系的GML空间离群面检测算法[J].广西师范大学学报（自然科学版）,2009,27(3):118-121. 被引量：3
5梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报（自然科学版）,2009,32(4):528-534. 被引量：32
6卢加磊,朱世华,丁香乾,黄跃华.基于Co-training的烟草原料数据优化分析[J].计算机与现代化,2010(2):176-179.
7赵倩,尚学群,王淼.基于seeds集和频繁项集挖掘的半监督聚类算法[J].计算机工程与应用,2010,46(8):123-126. 被引量：2
8张毅,刘旭敏,关永.基于密度的离群噪声点检测[J].计算机应用,2010,30(3):802-805. 被引量：13
9孙浩,何晓红.动态数据环境下基于信息熵的相对离群点检测算法[J].计算机应用,2010,30(5):1284-1286. 被引量：1
10田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13

同被引文献77

1He Hai-bo,Garcia,Edwardo A. Learning from imbalanced Data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21 (9) : 1263-1284. 被引量：1
2Fawcett T, Provost F. Combining Data Mining and Machine Learning for Effective User Profile[C]//Proceedings of 2nd In- ternational Con/erence on Know/edge Discovery and Data Min- ing. Portland, Oregon, USA, 1996 : 8-13. 被引量：1
3Ezawa K J, Singh M, Norton S W. Learning Goal Oriented Bayesian Networks for Telecommunications Risk Management [C] // Proceedings of the International Conference on Machine Learning. Bari, Italy, 1996 : 139-147. 被引量：1
4Zheng Zhaohui, Wu Xiaoyun, Srihari Rohini. Feature Selection for Text Categorization on Imbalanced Data[J]. SIGKDD Ex- plorations, 2004,6 (1) : 80-89. 被引量：1
5Breiman L. Baggixag predictors[J]. Machine Learning, 1996,24 (2) : 123-140. 被引量：1
6Freund Y, Schapire R F. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997,55 (1) : 119-139. 被引量：1
7Breiman L. Random forests[J]. Machine learning, 2001,45 (1): 5-32. 被引量：1
8Rodriguez J J, Kuncheva L I, Alonso C J. Rotation Forest: A new classifier ensemble method [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28 ( 10 ) : 1619-1630. 被引量：1
9Sun Yan-min,Mobamed S K,Wong A K C. Cost-sensitive boos- ting for classification of imbalanced data[J]. Pattern Recogni- tion, 2007,40(12) : 3358-3378. 被引量：1
10Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial In- telligence Research, 2002,16 : 321-357. 被引量：1

引证文献6

1职为梅,郭华平,范明.抽样技术和CBES分类非平衡数据集[J].计算机科学,2013,40(12):70-74.
2严宣辉,郭躬德.基于簇间分离性的稀有类识别算法[J].模式识别与人工智能,2014,27(6):502-508.
3郭华平,董亚东,邬长安,范明.面向类不平衡的逻辑回归方法[J].模式识别与人工智能,2015,28(8):686-693. 被引量：10
4王淞,黄浩,余果,梁楠,王黎维,孙月明.一种基于k近邻图的稀有类检测算法[J].软件学报,2016,27(9):2320-2331. 被引量：1
5周晓敏,曹付元,余丽琴.一种基于样本分层的双向过采样方法[J].计算机科学,2019,46(12):83-88. 被引量：5
6何云斌,冷欣,万静.不平衡数据加权边界点集成欠采样方法[J].西安电子科技大学学报,2021,48(4):176-183. 被引量：2

二级引证文献18

1陈倬.基于逻辑回归的多任务域快速分类学习算法[J].数字技术与应用,2016,34(11):123-123. 被引量：2
2郭志民,张永浩,周兴华,苏娟,吴博,耿俊成,宁杰.基于多源数据融合策略的配电网停电故障分析[J].电网与清洁能源,2018,34(1):84-88. 被引量：21
3史玉良,荣以平,朱伟义.基于用电特征分析的窃电行为识别方法[J].计算机研究与发展,2018,55(8):1599-1608. 被引量：33
4王一明.不均衡数据情况下信用卡欺诈识别[J].通讯世界,2018,25(12):219-220. 被引量：1
5李琼阳.基于再缩放策略的逻辑回归算法及其应用[J].统计与决策,2019,35(10):72-74. 被引量：8
6孟东霞,李玉鑑.利用自然最近邻的不平衡数据过采样方法[J].计算机工程与应用,2021,57(2):91-96. 被引量：2
7郭星晨,王青青,王亚.C4.5决策树算法在医疗数据分类中的应用研究[J].安庆师范大学学报（自然科学版）,2021,27(2):49-53. 被引量：5
8许盛伟,牟健.基于机器学习的政务大数据定级技术研究[J].保密科学技术,2021(5):39-44. 被引量：2
9阚学达,桂琼,张攀峰.基于决策边界的倾斜森林分类算法[J].计算机工程与设计,2022,43(2):391-398. 被引量：1
10江泽涛,钱艺,张少钦.基于最高密度点的入侵检测数据过采样方法[J].计算机仿真,2022,39(6):391-398. 被引量：3

1谢方方,徐连诚,牛冰茹.一种基于反向K近邻的孤立点检测改进算法[J].计算机应用与软件,2014,31(6):267-270. 被引量：3
2骆炎民,柳培忠,陈汉雄.一种快速的反向k近邻查找算法及其改进[J].北京工业大学学报,2012,38(12):1880-1887. 被引量：1
3岳峰,邱保志.基于反向K近邻的孤立点检测算法[J].计算机工程与应用,2007,43(7):182-184. 被引量：8
4陈子军,洪济海,刘文远.外包空间数据库中反向k近邻查询验证[J].小型微型计算机系统,2013,34(8):1819-1824. 被引量：1
5许凯,杨萌.移动对象的反向k近邻查询算法的研究[J].计算机工程与科学,2013,35(1):149-154. 被引量：3
6吾守尔.斯拉木,李丰军,陶梅.IBORA:一种改进的有效的边界点检测[J].小型微型计算机系统,2008,29(10):1845-1848.
7文武.RAD——编程的终结?[J].中国计算机用户,1995(12):24-25.
8无法调用别的程序打开RAR压缩包里的文件[J].电脑爱好者（普及版）,2010(9):92-92.
9邢剑,刘胜全,田军,田国忠.一种新的基于网格的边界点检测算法[J].计算机系统应用,2007,16(12):52-56. 被引量：3
10王淞,黄浩,余果,梁楠,王黎维,孙月明.一种基于k近邻图的稀有类检测算法[J].软件学报,2016,27(9):2320-2331. 被引量：1

软件学报

2012年第5期

浏览历史

内容加载中请稍等...

基于加权边界度的稀有类检测算法被引量：6

参考文献3

二级参考文献43

共引文献142

同被引文献77

引证文献6

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于加权边界度的稀有类检测算法 被引量：6

参考文献3

二级参考文献43

共引文献142

同被引文献77

引证文献6

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于加权边界度的稀有类检测算法被引量：6