系统数据流设计

为了实现上述需求,我们需要搭建大数据分析系统,对海量数据进行分析与计算。上述需求涉及离线计算和实时计算,由于Spark既拥有离线计算组件又拥有实时计算组件,因此以Spark为核心进行数据分析会更加容易,且易于维护。整个系统数据流架构的设计如图

日志数据流的分析步骤如下:

(1)在产生日志的每台服务器上安装Flume进行日志采集,然后把各自采集到的日志数据发送给同一个Flume服务器进行日志的合并。

(2)将合并后的日志数据以副本的方式分成两路(两路数据相同):一路进行实时计算;另一路进行离线计算。将需要实时计算的数据发送到实时消息系统Kafka进行中转,将需要离线计算的数据存储到HBase分布式数据库中。

(3)使用Spark Streaming作为Kafka的消费者,按批次从Kafka中获取数据进行实时计算,并将计算结果存储于MySQL关系型数据库中。

(4)使

相关阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: