目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台。我们公司最初是使用CDH的环境,近日领导找到我让我基于做一个公司自己的数据平台产品。最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚。后来想想如果公司如果有自己数据平台的产品后续在客户面前也能证明自己的技术实力且我个人也能从源码级别更深入的学习了解大数据生态圈的各个组件。
个人在公司的数据平台从无到有的这个过程。认为建设一个自己的数据平台应该包含三个部分。包括基础设施建设、大数据平台建设、业务系统数据接口三部分组成。其中基础设施建设初期采用对台作为硬件基础设施,后续技术成熟可以采用容器技术更优的配置资源。大数据平台包含数据接入模块,数据存储模块,数据计算模块,资源调度模块,监控模块组成,致力于完成数据存储、流计算、批处理、交互式分析等多种需求。本文将重点介绍大数据平台建设规划。业务系统数据接口是根据不同业务系统需求,对外暴露对应的数据接口提供数据。
1. 数据平台架构
数据平台按数据处理方式包含数据流处理和数据批处理两种方式,其中数据流处理采用Storm计算框架,目前建议只做简单逻辑处理,计算结果仅用作实时数据展示,后续技术成熟可加入实时ML模块。批处理针对于数据仓库,通过采集程序、对接业务系统或收集业务系统日志等数据,数据存储底层使用文件系统HDFS,基于多种业务需求构建数据仓库用于多维度数据分析。数据计算建议采用当下主流的计算引擎Spark。对于非关系型数据通过代码逻辑进行处理,对于关系型数据采用SQL进行处理,如SparkSQL,Hive,Kylin等组件,计算结果写入支持后台应用程序快速读取的数据库。计算任务通过任务调度系统统一调度执行。数据平台安全机制采用主流的通过主机配置kerberos实现。资源监控使用自行开发的XJManager,页面应包含组件名称及状态统计信息,主机健康信息,用户管理等模块,实现用户通过Web页面就可以安装配置大数据平台。项目整体架构如下图所示:
下边介绍各个模块:
2.1. 数据接入模块
包含传感器数据采集程序接入,使用Flume采集业务系统日志数据,对接其他业务系统数据库数据。对实时采集的数据使用Kafka作为缓冲。对于对接的业务系统数据如果有操作型数据可以构建ODS系统。用于数据分析的数据(含采集数据和对接业务数据)在上构建数据仓库。
2.2. 数据仓库模块
基于之上构建数据仓库。数据来源于多种数据源,针对不同的业务需求设计整理不同的基础数据表。数据仓库是一种反范式设计,引入冗余。完全针对不同维度的数据分析需求去设计。
2.3. 流计算模块
使用Storm作为流计算框架。Storm具有低延时的特点。后续如果数据量吞吐量较大且没有较高的时效性需求,可以替换SparkStreaming。
2.4. 离线计算模块
离线处理模块对于结构化数据使用SQL进行处理,对于非结构化数据编写代码进行处理。使用SQL进行大数据量下的计算建议使用SparkSQL,其他常用的使用SQL进行数据计算的组件如传统的Hive,国人开源的Kylin。(Impala不开源不能整合)。
2.5. 任务调度模块
集成Oozie和Ext.js自动部署Oozie的web ui,通过xml配置作业依赖,通过property文件配置运行参数,通过ext.js完成web页面监控。
2.6. 平台安全模块
Kerberos
2.7. 监控模块
目前初期建设待解决的问题如下:
3.1. 源码理解
源码地址:https://github.com/apache/ambari
主要修改部分在ambari-web和ambari-views模块
3.2. Ambari修改样式
修改ambari页面样式,包含相关logo修改,页面菜单、操作按钮、提示等内容汉化。
下图是原ambari样式:
3.3. Ambari集成组件
Ambari类似于Cloudera公司的ClouderaManager,使用源码后编译也仅仅能够实现在线安装组件,在线安装组件速度慢,不稳定,易出现安装失败。所以建议将常用组件集成一起打包,常用组件包括HDFS、MapReduce2、YARN、Hive、Sqoop、Oozie、Zookeeper、Storm、Kafka、Flume、Spark等。提前准备好对应版本的组件安装部署时从本地安装提升速度也更加稳定。