网站首页 > 运维 > 正文

系统架构 zookeeper hadoop hive flume 二、《大数据项目实战之用户行为分析》数据流及架构设计

chat ai中文免费版运维 2024-02-07 8 0

系统数据流设计

为了实现上述需求，我们需要搭建大数据分析系统，对海量数据进行分析与计算。上述需求涉及离线计算和实时计算，由于Spark既拥有离线计算组件又拥有实时计算组件，因此以Spark为核心进行数据分析会更加容易，且易于维护。整个系统数据流架构的设计如图

日志数据流的分析步骤如下：

（1）在产生日志的每台服务器上安装Flume进行日志采集，然后把各自采集到的日志数据发送给同一个Flume服务器进行日志的合并。

（2）将合并后的日志数据以副本的方式分成两路（两路数据相同）：一路进行实时计算；另一路进行离线计算。将需要实时计算的数据发送到实时消息系统Kafka进行中转，将需要离线计算的数据存储到HBase分布式数据库中。

（3）使用Spark Streaming作为Kafka的消费者，按批次从Kafka中获取数据进行实时计算，并将计算结果存储于MySQL关系型数据库中。

（4）使

相关阅读

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

系统架构 zookeeper hadoop Hive flume

本文由用户于 2024-02-07 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18503381.html

上一篇

arm 系统架构 FreeRTOS中断管理基于STM32

下一篇

系统架构 java 超详细的RabbitMQ入门与实战介绍，看这篇文章就够了！

发表评论取消回复

返回顶部暗黑模式