专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

基于云计算的并行数据挖掘工具平台研究

文章来源:  中国云计算 发布时间: 2010年02月20日   浏览: 1351   作者:中国云计算

随着电信行业的发展,电信运营商之间的竞争也愈发激烈。为了在竞争中获取胜利,正确的商业策略成为电信运营商成功的关键环节。电信运营商拥有海量用户数据信息,利用数据挖掘技术,可在计费数据、业务订购数据、网管数据等海量用户数据中发现商业知识,为市场的精准营销打下基础。随着中国移动用户规模的扩大及对应用目标的多样需求,数据挖掘应用面临了新的挑战。

首先,用户规模越来越大,由大量用户产生了海量数据,包括业务数据、计费数据以及网管数据等。例如,一个中等规模的省公司拥有大约1000万用户,所以每年产生的CDR数据量大约在12~16TB。例如一个非常简单的业务目标的数据挖掘,经过数据预处理(ExtractTransformLoadETL)处理后,算法需要处理大约10GB的数据。而一个省公司的网管数据更是海量,可达到一天1TB量级。

       其次,随着应用需求的愈加复杂及变化多样,数据挖掘应用向其IT支撑平台提出了更高计算要求及存储能力,且数据挖掘应用也逐步提出实时性要求,及时的商业策略才能快速占领市场。

以上问题向传统的数据挖掘系统提出了新的挑战,传统数据挖掘系统运行于Unix小型机的集中平台上,这受到很多限制。目前,以一个聚类应用为例,现有的商用数据挖掘系统仅能支持100万用户一个月内数据的知识发现,这距离我们实际的要求还相差甚远。并且,传统的IT支撑平台成本很高,成本过高会大大降低我们的竞争力。

中国移动研究院研发的基于云计算平台的并行数据挖掘工具(BC-PDM,Blue Carrier based Parallel Data Mining),集中于采用云计算技术,实现海量数据的存储、分析、处理、挖掘,向经分系统及网管系统提供高可靠性、高性能的数据挖掘分析支撑工具。

从系统架构来讲,基于云计算的并行数据挖掘工具平台包括三个层次,依下而上为分布式计算层,数据挖掘平台层以及业务应用层,具体来讲

(1)分布式计算平台层:包括三部分功能:

l  分布式文件系统:提供分布式数据文件存储功能,提供具备高可靠性、高稳定性的存储平台;

l  并行编程环境:提供基于Mapreduce的变成模型,及任务调度、任务执行、结果反馈等功能;及向平台提交作业功能;

l  分布式系统管理:实现对平台的分布式系统管理。

2)数据挖掘平台层:包括五部分功能:

l  工作流模块:实现对各个数据挖掘步骤及模块总控、调度功能;

l  数据加载模块:将源数据从其他外设中倒入云计算平台的DFS系统;

l  并行ETL模块:对原始数据进行预处理以得到挖掘数据;并行数据挖掘工具向云计算平台提交待执行的ETL任务,由云计算平台执行并反馈结果,存放于DSF

l  并行数据挖掘算法模块:实现满足业务需要的数据挖掘算法;并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务,由云计算平台执行并反馈结果,存放于DFS

l  并行结果展示模块:将并行数据挖掘算法的结果展示给用户;

(3)业务应用层:实现电信类的业务应用,以供市场部门制定营销策略,具体业务应用如:客户分群,用户职业预测等。用户可以通过两种方式使用并行数据挖掘工具:

l  基于用户GUI界面:用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示,来实现所需的应用。

l  基于算法库API:用户可以编写应用系统,调用算法库中的API来实现应用功能。


一键分享:

在线客服