基于云计算及数据挖掘技术的海量数据处理研究
王鹏 王健安 郭畅 巴济慈
主要介绍了在HADOOP平台下使用优化的SPRINT 算法进行海量数据处理。首先介绍了传统的数据挖掘算法SPRINT 算法,然后结合云计算中的MapReduce 编程模式对SPRINT 算法进行改进和优化,将并行的SPRINT 算法移植到HADOOP平台下,最后通过实验实现分布式数据处理。
关键词:云计算;数据挖掘;SPRINT ;HADOOP;MapReduce