文章目录 个人简介 前言一、过去的20221、工作技术上的收获2、生活也很努力2.1、运动使我快乐2.2、做饭使我快乐2.3、养了一只猫 二、2023年的打算1.工作上2.生活上 总结 个人简介 个人主页:赵...
-
java spark 数据仓库 后端 【夸智 2022 年度征文】你不停的翻找答案,只不过是在找一个替你讲故事的人——Oracle DBA转型大数据开发DBA的自述
-
hadoop hive 大数据 分布式 SparkSQL
第1章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是 Spark 用于结构化数据(structured data 处理的 Spark 模块。 SparkSQL 的前身是 Shark,...
-
大数据 spark hdfs 解决集群部署Hadoop 启动后没有ResourceManager问题
解决集群部署Hadoop 启动后没有ResourceManager问题 问题1. 启动完成后输入jps命令没有看到ResourceManager2. 查看ResourceManager日志出现java.lang.refle...
-
scala 大数据 hdfs java Spark Join大大表
Spark Join大大表 分而治之拆分内表外表的重复扫描案例 负隅顽抗数据分布均匀数据倾斜Task 数据倾斜Executor 数据倾斜两阶段 ShuffleExecutors 调优案例 Join 大大表 : Join...
-
大数据 分布式 Spark编程实验二:RDD编程初级实践
目录 一、目的与要求 二、实验内容 三、实验步骤 1、pyspark交互式编程 2、编写独立应用程序实现数据去重 3、编写独立应用程序实现求平均值问题 4、三个综合实例 四、结果分析与实验体会 一、目的与要求 1、熟悉Spa...
-
hive 大数据技术之Spark——Spark SQL
一、SparkSQL 概述 1.1 SparkSQL是什么 Spark SQL是Spark用于结构化数据处理的Spark模块。 我们之前学习过hive,hive是一个基于hadoop的SQ...
-
scala 大数据 SparkStreaming
1.批处理与流处理 spark本身作为引擎时是批处理,从信息源全部读取数据,然后一批一批处理数据。处理sparkSQL等之后再存入hdfs。 sparkstreaming是实时引擎,在一个窗口时间内(比如1s)积攒数据,然后...
-
spark 大数据 linux intellij-idea Scala安装步骤详解
Scala安装步骤详解 1.在网页上运行Scala 通过浏览器查找Scastie并进入,即可进入Scala在线运行环境。 进入Scastie界面后,在上窗格中输入“println(“hello world” ”。 单击“Ru...
-
sql spark Hive中数组array的相关应用
array( :创建一个数组。split(string,delimiter :按指定字符分隔字符串成数组。 select array(1,3,5 c1,split('a,c,b',',' c2; array[int]:...
-
hadoop Spark Scala大数据编程实例
一、Scala 1.1、Scala简介 Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特...
-
spark scala 大数据 2023
一、在IDEA中执行以下语句 或者用windows徽标+R 输入cmd 进入命令提示符 输入scala直接进入编写界面 1、Scala的常用数据类型 注意:在Scala中,任何数据都是对象。例如: 1. 数值类型:Byte...
-
大数据 hadoop Spark 基础概念
1. Spark基础概念1.1 Spark是什么1.2 Spark 模块1.3 Spark 四大特点1.4 Spark 运行模式1.5 spark 三大核心1.5.1 web 监控界面1.5.2 SparkContext1....
-
大数据 Spark中使用scala完成数据抽取任务 -- 总结
如题 任务二:离线数据处理,校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式 第二个任务和第一个的内容...
-
大数据 分布式 hadoop spark.driver.maxResultSize限制 Spark 驱动程序(driver)在向客户端返回结果时的最大大小
每个Spark action的所有分区的序列化结果的总大小限制(例如,collect行动算子)。 应该至少为1M,或者为无限制。 如果超过1g,job将被中止。 如果driver.maxResultSize设置过大可能会超出...
-
scala 大数据 spark-ml [机器学习、Spark]Spark MLlib实现数据基本统计
博主:发量不足 本期更新内容:Spark MLlib基本统计 下篇文章预告:Spark MLlib的分类 简介:耐心,自信来源于你强大的思想和知识基础!! 目录 Spark MLlib基本统计 一.摘...
-
spark 【scala中文源码系列】scala.util.matching.Regex类用法示例源码详解
scala Regex类用法示例源码详解 文章目录 scala Regex类用法示例源码详解用法提取查找匹配替换文本 源码 此包与字符串的正则表达式(regex)匹配有关,其主要目标是从这些匹配中提取信息或将其替换...
-
毕业设计 python 预测模型 大数据毕设-基于hadoop+spark+大数据+机器学习+大屏的电商商品数据分析可视化系统设计实现 电商平台数据可视化实时监控系统 评论数据情感分析
作者:雨晨源码 简介:java、微信小程序、安卓;定制开发,远程调试 代码讲解,文档指导,ppt制作 精彩专栏推荐订阅:在下方专栏 Java精彩实战毕设项目案例 小程序精彩项目案例 Python实战项...
-
hadoop 大数据 SparkSQL与Hive整合(Spark On Hive)
1. Hive的元数据服务 hive metastore元数据服务用来存储元数据,所谓元数据,即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。在...
-
spark scala 报错NoClassDefFoundError: com/fasterxml/jackson/core/json/JsonWriteFeature; omitted for conflict with
java.lang.NoClassDefFoundError: com/fasterxml/jackson/core/json/JsonWriteFeature 原因是需要的fasterxml的版本包和其他包里面的旧版本重...
-
pycharm Python搭建PySpark执行环境入口时出现RuntimeError: Java gateway process exited before sending its port number解决办法
我在搭建PySpark执行环境入口时出现RuntimeError: Java gateway process exited before sending its port number,在CSDN上搜索后确定是未安装Java...
-
开发语言 后端 spark 大数据 架构 程序人生 scala表达式
1.8 表达式(重点) # 语句(statement :一段可执行的代码# 表达式(expression :一段可以被求值的代码,在Scala中一切都是表达式 - 表达式一般是一个语句块,可包含一条或者多条语句,多条语句使用...
-
编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层
编写Scala代码,使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层 抽取MySQL的metast库中Production表的全量数据进入Hive的ods库中表production,字段排序、类型不变,同时添...
-
spark 大数据 hive 数据仓库建设-数仓分层
数据仓库能够帮助企业做出更好的决策,提高业务效率和效益;在数据仓库建设时,绕不开的话题就是数仓分层。 一、数据分层的好处 1. 降低数据开发成本 通用的业务逻辑加工好,后续的开发任务可以基于模型快速使用,数据需求的响应速度也...
-
Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件
Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件 版本号步骤hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlslavesworkersyarn-site....
-
后端 大数据 分布式 开发语言 oracle sql SparkStreaming常见transformation算子
1.4 SparkStreaming常见transformation算子 1.4.1 常见的算子操作 对cogroup做一简单的说明:cogroup就是groupByKey的另外一种变体,groupByKey是操作一个K-V...
-
scala 大数据 spark网站日志分析实例
文章目录 网站日志分析实例日志过滤日志分析 网站日志分析实例 日志是非结构化数据,做分析需要先将日志文件做数据清洗。将数据清洗为结构化数据,入库分析。 另外,还有考虑数据的管理,譬如日志数据增量更新等等。针对数据量大,可采...
-
图解Spark源码(一)--- Spark 通信架构
小乌龟今天学习的是 Spark的 通讯框架。因为Spark 毕竟是分布式的,各模块之间需要进行通信,那么就必然用到通信框架。 Spark 通信架构概述 Spark1.6 之前使用的是 Akka 作为内部通讯组件,Spark1...
-
MLlib 大数据笔记--Spark机器学习(第一篇)
目录 一、数据挖掘与机器学习 1、概念 2、人工智能 3、数据挖掘体系 二、机器学习 1、什么是机器学习 2、机器学习的应用 3、实现机器学习算法的工具与技术框架 三、Spark MLlib介绍 1、简介 2、MLlib基本...
-
大数据 Spark SQL
一、Spark SQL概述二、准备Spark SQL的编程环境三、Spark SQL程序编程的入口四、DataFrame的创建五、DataFrame的编程风格六、DataSet的创建和使用七、Spark SQL的函数操作 一...
-
neo4j spark 大数据技术原理与应用 第三篇 大数据处理与分析(四)图计算 数据可视化
目录 第十三章 图计算 一、 图计算简介 1.1 图结构数据 1.2 图计算解决方案 1.3 BSP大同步模型 二、 Pregel图计算模型 2.1 有向图和顶点 2.2 顶点间的消息传递 2.3 Pregel的计算过程 三...
-
大数据 scala spark streaming剖析
spark streaming剖析 数据处理方式处理流程DStream内部细节 数据输出kafka数据源数据接收模式分区匹配模式偏移量(offset)存储策略保证结果输出操作幂等输出结果与offset存储放入原子事务中...
-
数据仓库 etl spark HiveSQL刷题(查询首次下单后第二天连续下单的用户比率)
题目需求: 从订单信息表(order_info 中查询首次下单后第二天仍然下单的用户占所有下单用户的比例,结果保留一位小数,使用百分数显示, 期望结果如下: percentage 70.0% 需要用到的表: 订...
-
大数据 跟着chatgpt学习|1.spark入门
首先先让chatgpt帮我规划学习路径,使用Markdown格式返回,并转成思维导图的形式 目录 目录 1. 了解spark 1.1 Spark的概念 1.2 Spark的架构 1.3 Spark的基本功能 2.spark中...
-
scala sparkstreaming 与 kafka重分区的场景应用
sparkstreaming 与 kafka重分区的场景应用 昨天线上发现个bug,导致数据的重复,原因如下 线上场景是二个sparkstreaming程序。程序1主要是用来接收数据放入kafka集群,程序2读取数据进行处理...
-
大数据 Spark——Windows本地运行环境部署
四种环境配置 一 、jdk环境配置 链接: https://www.oracle.com/java/technologies/javase-jdk8-downloads.html 说明:这里下载了jdk1.8版本,否则后期会...
-
Java Big Data Scala Spark Windows10 安装
目录 一、Scala的安装二、Spark的安装1、Spark的几个版本的意思2、Spark的最新版本:[Spark最新版](https://spark.apache.org/downloads.html 3、安装Spark...
-
大数据 SPARK数据分析
有了 DataFrame 之后,我们该如何在 DataFrame 之上做数据探索、数据分析,以及各式各样的数据转换呢?在数据处理完毕之后,我们又该如何做数据展示与数据持久化呢?今天这一讲,我们就来解答这些疑问。 为了给开发者...
-
大数据 分布式 Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
前言 今天学习Spark SQL,前面的RDD编程要想熟练还是得通过项目来熟练,所以先把Spark过一遍,后期针对不足的地方再加强,这样效率会更高一些。 简介 在RDD编程中,我们使用的是Sp...
-
大数据 hadoop Spark RDD编程基本操作
RDD是Spark的核心概念,它是一个只读的、可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,可在多次计算间重用。Spark用Scala语言实现了RDD的API,程序员可以通过调用API实现对RDD的各种操作,...
-
数据仓库 spark Hive增强的聚合、多维数据集、分组和汇总
Hive多维分析 1、多维分析概述 2、GROUPING SETS多维分组 3、GROUPING__ID函数 4、ROLLUP与CUBE语法糖 5、多维分析常见问题与解决春雨惊春清谷天,夏满芒...
-
基于Python和Spark的大数据音乐推荐系统的设计与实现
基于Python和Spark的大数据音乐推荐系统的设计与实现 摘 要 随着科学技术的发展,人们对服务的要求也越来越高。为了能提高管理者的管理效能,现在的音乐推荐管理必须要脱离复杂的手工管理方式。随着信息化时代的到来...
-
Hadoop、Spark、Storm、Flink区别及选择
hadoop、spark、storm、flink如何选择 hadoop和spark是更偏向于对大量离线数据进行批量计算,提高计算速度storm和flink适用于实时在线数据,即针对源源不断产生的数据进行实时处理。至于stor...
-
scala spark flink系列(一)flink部署及架构简介
Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架构。JobManager相当于是Master,TaskManager相当于是Slave 1. St...
-
big data scala Spark 学习路线
参考文章: Spark 学习资源 - 知乎 Spark 2.2.x 中文官方参考文档 — Spark 2.2.x 中文文档 2.2.1 文档 spark api之一:Spark官方文档 - 中文翻译_weixin_34375...
-
scala 大数据 spark期末考试选择题精选
以下哪一个不是saprk的特点 A、随处运行 B、代码简洁 C、使用复杂 D、运行快速 Scala属于哪种编程语言 A、函数式编程语言 B、汇编语言 C、机器语言 D、多范式编程语言 注意:scala也是一种函数式编程语言...
-
java 开发语言 scala spark:页面单跳转换率统计(案例)
目录 介绍 数据准备 代码实现 介绍 如果用户在一次Session过程中访问的页面路径为3,9,10,那么页面3跳到页面9叫一次单跳,单跳转化率就是统计页面点击的概率。 如:计算3-9的单跳转化率,先获取符合条件的Sess...
-
PySpark开发环境搭建常见问题及解决
PySpark环境搭建常见问题及解决 1、winutils.exe问题2、SparkURL问题3、set_ugi( 问题 本文主要收录PySpark开发环境搭建时常见的一些问题及解决方案,并收集一些相关资源 1、winut...
-
scala 大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)
目录 前言 题目: 一、读题分析 二、处理过程 1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串 2.这里提供除了SQL方法外的另一种过滤不满足条件的方法 三、重难点分析 总结 前言 本题...
-
spark intellij-idea 【scala基础知识】
大数据开发技术笔记 大数据:spark:spark--它是新一代的内存级大数据的计算框架,spark它是大数据的重要内容。 spark它是用scala语言来开发的,所以我们如果要掌握好spark,就得学好scala这门语言。...
-
开发语言 spark Scala中dataframe的常用关键字:withColumn
withColumn关键字: 用于操作dataframe原表某一列的数据,将操作完的每一行数据形成一列,用来替换一个表原有的列或者在原表后面追加新的列! 语法如下: withColumn传入...