基于非平稳割点的大数据分类样例选择被引量：3

Unstable Cut-Points Based Sample Selection for Large Data Classification

下载PDF

导出

摘要针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法.依据在区间端点得到凸函数的极值这一基本性质,通过标记非平衡割点度量一个样例为端点的程度,然后选取端点程度较高的样例,从而避免样例之间距离的计算.该方法旨在不影响分类精度的前提下,达到压缩数据集、提高计算效率的目的.实验表明,文中方法对于类别不平衡度较高的数据集压缩效果明显,同时表现出较强的抗噪性. When the traditional sample selection methods are used to compress the large data, the computational complexity and large time consumption are high. Aiming at this problem, a sample selection method based on unstable cuts for the compression of large data sets is proposed in this paper. The extreme value is obtained at the interval endpoint for convex function, and therefore the endpoint degree of a sample is measured by making the unstable cuts of all attributes according to the basic property. The samples with higher endpoint degree are selected, and the calculation of the distance between the samples is avoided. The efficiency of the computation is improved without affecting the classification accuracy. The experimental results show a significant effect of the proposed algorithm on the＆amp;nbsp;compression for the large data set with high imbalance ratio and strong ability of anti-noise.

作者王熙照邢胜赵士欣 WANG Xizhao XING Sheng ZHAO Shixin(College of Mathematics and Information Science, Hebei University, Baoding 071002 School of Management, Hebei University, Baoding 071002 College of Computer Science and Engineering, Cangzhou Normal University, Cangzhou 061001 Department of Mathematics and Physics, Shijiazhuang Tiedao University, Shijiazhuang 050045)

机构地区河北大学数学与信息科学学院保定河北大学管理学院沧州师范学院计算机科学与工程学院石家庄铁道大学数理系

出处《模式识别与人工智能》 EI CSCD 北大核心 2016年第9期780-789,共10页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.713710630) 深圳市科技计划项目(No.JCYJ20150324140036825)资助~~

关键词大数据分类样例选择非平稳割点决策树 Large Data Classification Sample Selection Unstable cut-points Decision Tree

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献25

1BRYANT R E, KATE R H, LAZOWSKA E D. Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science, and Society[EB/OL].[2012-10-02]. http://videolectures.net/eswc2012_grobelnik_big_data. 被引量：1
2WILSON D R, MARTINEZ T R. Reduction Techniques for Instance-Based Learning Algorithms. Machine Learning, 2000, 38(3): 257-286. 被引量：1
3BRIGHTON H, MELLISH C. Advances in Instance Selection for Instance-Based Learning Algorithms. Data Mining and Knowledge Discovery, 2002, 6(2): 153-172. 被引量：1
4HART P E. The Condensed Nearest Neighbor Rule. IEEE Trans on Information Theory, 1968, 14(3): 515-516. 被引量：1
5GATES G W. The Reduced Nearest Neighbor Rule. IEEE Trans on Information Theory, 1972, 18(3): 431-433. 被引量：1
6RITTER G, WOODRUFF H, LOWRY S, et al. An Algorithm for the Selective Nearest Neighbour Decision Rule. IEEE Trans on Information Theory, 1975, 21(6): 665-669. 被引量：1
7NIKOLAIDIS K, GOULERMAS J Y, WU Q H. A Class Boundary Preserving Algorithm for Data Condensation. Pattern Recognition, 2011, 44(3): 704-715. 被引量：1
8GARCA S, DERRAC J, CANO J R, et al. Prototype Selection for Nearest Neighbor Classification: Taxonomy and Empirical Study. IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(3): 417-435. 被引量：1
9ZHAI J H, LI T, WANG X Z. A Cross-Selection Instance Algorithm. Journal of Intelligent and Fuzzy Systems, 2016, 30(2): 717-728. 被引量：1
10CHEN J N, ZHANG C M, XUE X P, et al. Fast Instance Selection for Speeding up Support Vector Machines. Knowledge-Based Systems, 2013, 45: 1-7. 被引量：1

同被引文献11

1吴丹,顾学迈.一种新的基于支持向量机的自动调制识别方案[J].南京理工大学学报,2006,30(5):569-572. 被引量：9
2蒋斌,李超英,李宗谕,杨波,孙晓斌.基于决策树分类的毫米波雷达对电力线的检测[J].南京理工大学学报,2017,41(1):95-99. 被引量：3
3朱庆生,段浪军,杨力军.基于自然邻居和最小生成树的原型选择算法[J].计算机科学,2017,44(4):241-245. 被引量：3
4朱虹,李千目,戚湧.一种基于改进最近邻算法的忠诚度预测方法[J].南京理工大学学报,2017,41(4):448-453. 被引量：2
5刘凯,郑山红,蒋权,赵天傲.基于随机森林的自适应特征选择算法[J].计算机技术与发展,2018,28(9):101-104. 被引量：8
6黄宇扬,董明刚,敬超.面向K最近邻分类的遗传实例选择算法[J].计算机应用,2018,38(11):3112-3118. 被引量：7
7周翔,翟俊海,黄雅婕,申瑞彩,侯璎真.基于随机森林和投票机制的大数据样例选择算法[J].计算机应用,2021,41(1):74-80. 被引量：7
8黄雅婕,翟俊海,周翔,申瑞彩,侯璎真.多哈希表投票样例选择算法[J].山西大学学报（自然科学版）,2020,43(4):713-718. 被引量：1
9温学华,王浩,张寒,徐梓栋,陶天友.嵌套网格技术在悬索桥扁平钢箱梁气动参数识别中的应用[J].东南大学学报（自然科学版）,2022,52(5):841-847. 被引量：4
10周兰喜.基于自适应网格技术螺旋桨空泡数值模拟研究[J].江苏船舶,2022,39(6):24-26. 被引量：1

引证文献3

1孙元元,张德生,张晓.基于CURE聚类算法改进的原型选择算法[J].计算机系统应用,2019,28(8):162-169. 被引量：2
2刘依菲,郭红月,刘晓东.基于样本选择的二型AFS分类方法研究[J].南京理工大学学报,2019,43(4):402-407. 被引量：1
3牛保民,行久红.基于网格技术的大数据样例选择算法研究[J].信息与电脑,2023,35(8):114-116.

二级引证文献3

1周玉,孙红玉,朱文豪,任钦差.基于K均值聚类的分段样本数据选择方法[J].计算机应用研究,2021,38(6):1683-1688. 被引量：11
2顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7.
3陈忠华,朱军,王育飞,凌晨.基于一致性K均值聚类的电动汽车充电负荷建模方法[J].现代电力,2022,39(3):338-346. 被引量：7

1翟俊海,李畅,李塔,王熙照.基于概率神经网络和K-L散度的样例选择[J].计算机应用研究,2014,31(1):63-65. 被引量：2
2吴伟宁,刘扬,郭茂祖,刘晓燕.基于采样策略的主动学习算法研究进展[J].计算机研究与发展,2012,49(6):1162-1173. 被引量：33
3翟俊海,王婷婷,王熙照.一种改进的样例约简支持向量机[J].南京大学学报（自然科学版）,2013,49(5):596-602. 被引量：4
4汪莉萍.基于压缩数据集的挖掘算法研究[J].科技创新导报,2009,6(14):41-41.
5龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
6王珍钰,王熙照.基于近邻熵的主动学习算法[J].模式识别与人工智能,2011,24(1):97-102. 被引量：5
7陈兴稣,王雪峰.一种基于聚类的不平衡数据分类算法[J].信息技术,2013,37(8):57-60. 被引量：1
8唐新宇,陈晓明.基于合成新样本的不平衡数据集上采样算法[J].科技通报,2013,29(8):127-129.
9翟俊海,王婷婷,王熙照.样例约简支持向量机[J].计算机科学与探索,2011,5(12):1131-1138. 被引量：2
10翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2

模式识别与人工智能

2016年第9期

浏览历史

内容加载中请稍等...

基于非平稳割点的大数据分类样例选择被引量：3

参考文献25

同被引文献11

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于非平稳割点的大数据分类样例选择 被引量：3

参考文献25

同被引文献11

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于非平稳割点的大数据分类样例选择被引量：3