摘要
PCA算法能够有效地将高维数据投影到较低维空间,应用在各种高维数据的处理中。在煤炭系统中,随着数字时代的高速发展,煤炭数据不仅从维度方面快速增长,而且数据的规模也呈现指数级增长。传统的PCA算法不能有效地处理海量规模煤炭数据。本文针对大规模煤炭数据,提出了分布式PCA算法,该算法基于现有流行的Map Reduce分布式计算框架,能够快速、有效地完成PCA数据分析工作。通过大量的实验结果进一步证明了本文提出的算法具有很高的效率以及很好的可扩展性。
出处
《福建电脑》
2015年第11期32-33,共2页
Journal of Fujian Computer
基金
四川省级教育厅科研项目(编号:13ZA0035)