导言

在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖引玉。 ~~ 今天想以自身的经历和实践经验,分享一下大数据平台的技术生态、开发管理与应用架构。为求简明扼要,内容主要以图示概览为主,对于其中更多概念在此不进行详解,因为这决然不是几篇文章的事,过程和附录会给出一些学习建议。

大数据平台的技术生态

可以看到

首先在企业内确定要进行采集的数据源,包括关系数据库存储的结构化数据;以服务端日志、用户端行为埋点和IOT上报数据为主的半结构化数据;文档、图片、视频和音频等非结构化数据。

通过离线采集工具(如Sqoop采集关系数据库数据……)、实时采集工具(如Flume采集日志数据……)、数据库增量采集工具(Canal……)采集上述数据源,kafka可以作为实时采集(增量采集)的消息队列服务。

将离线数据存储至分布式文件系统HDFS,应用于离线数仓服务;将实时数据存储至Kafka,应用于实时数仓服务。

使用MapReduce(基于硬盘读写,目前已经很少用

文章链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: