结合Rough Set理论研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的Rough Set算法要求数据常驻内存,因此不能有效地处理海量数据。为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于...结合Rough Set理论研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的Rough Set算法要求数据常驻内存,因此不能有效地处理海量数据。为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Set on Attribute Reduction,MD-PRS-AR)。通过实验表明,MDPRS-AR算法的分割效率比传统的算法约高70%,而且与处理整个数据集的算法相比,正确性损失不大。展开更多
文摘结合Rough Set理论研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的Rough Set算法要求数据常驻内存,因此不能有效地处理海量数据。为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Set on Attribute Reduction,MD-PRS-AR)。通过实验表明,MDPRS-AR算法的分割效率比传统的算法约高70%,而且与处理整个数据集的算法相比,正确性损失不大。