Scala简介 Scala是一门类Java的多范式语言,它整合了面向对象编程和函数式编程的最佳特性。具体来讲 Scala运行于Java虚拟机(JVM 之上,井且兼容现有的Java程序,同样具有跨平台、可移植性好、方便的垃圾回...
-
一文入门Scala(学习Spark必备)
-
大数据 scala Spark运行模式介绍
文章目录 1. Local运行模式1.1 基本运行情况介绍1.2 角色划分1.3 Spark 任务提交与解释器对比 2. StandAlone运行模式2.1 StandAlone介绍2.2 StandAlone架构2....
-
大数据 scala spark动态资源
动态资源分配策略在空闲时释放 Executor,繁忙时申请 Executor。 它可以防止小数据申请大资源,Executor 空转的情况。 在集群资源紧张,有多个 Spark 应用的场景下,可以开启动态分配达到资源按需使用...
-
Spark写入数据到Hbase(hdfs bulkload方式)
运行系统变量配置kerberossparksession配置spark对hbase的依赖配置spark sql读取源数据将数据转换为HFile格式使用HBase的bulkload功能将HFile加载到HBase表中 spak...
-
大数据 分布式 windows10搭建spark本地开发环境
windows10搭建spark本地开发环境 1. spark概述2. 安装spark2.1 Windows10 安装Spark本地开发环境2.1.1 **版本说明**2.1.2 **环境准备**2.1.2.1 JDK 安...
-
大数据 【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
文章目录 一. Spark SQL Command Line Options(命令行参数 二. The hiverc File1. without the -i2. .hiverc 介绍 三. 支持的路径协议四. 支持...
-
spark 如何用Java和Scala编写Hive的UDF函数:解析Json字符串
1. 前言 在实际的数据处理中,我们经常需要对数据进行各种各样的计算和处理,例如字符串的拼接、日期的转换、数值的运算等等。Hive作为一款基于Hadoop生态圈的数据仓库工具,提供了UDF(User-Defined Fu...
-
性能优化:Spark SQL中的谓词下推和列式存储
Apache Spark是一个强大的分布式计算框架,Spark SQL是其一个核心模块,用于处理结构化数据。性能优化是大数据处理中的一个关键问题,本文将深入探讨Spark SQL中的两个性能优化技术:谓词下推(Predica...
-
hadoop 大数据 scala Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建
搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联,都是从零开始搭建。 如果将文章中的配置文件修改内容复制粘贴的话,所有配置文件添加的内容后面的注释记得删除,可能会报错。保险一点删除最好。 Scal...
-
Spark读取Hive数据的两种方式与保存数据到HDFS
Spark读取Hive数据的两种方式与保存数据到HDFS Spark读取Hive数据的方式主要有两种 1、 通过访问hive metastore的方式,这种方式通过访问hive的metastore元数据的方式获取表结构信息和...
-
大数据 scala spark dataframe 时间加减
参考Adding 12 hours to datetime column in Spark 只针对标准化时间戳 如果是 yyyy-MM-dd HH:mm 转换后会自动补到 HH:mm:ss ss位补0 时间英文简写查询...
-
大数据 spark Flink知识点总结 Flink简介
Flink简介 Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:Da...
-
Spark大数据分析与实战笔记(第二章 Spark基础-04)
文章目录 每日一句正能量引言章节概要2.4 体验第一个Spark程序2.4.1 运行Spark官方示例SparkPi 总结 每日一句正能量 “春风十里,不如你。” 这句来自现代作家安妮宝贝的经典句子,它表达了对他人的...
-
spark 大数据 数据仓库模型设计V2.0
一、数仓建模的意义 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。 高性能:良好的数据模型能够帮助我们快...
-
spark scala 大数据 Still have 1 requests outstanding when connection from slaveX/X.X.X.X:33202 is closed
我加了如下的参数 运行的程序其实逻辑上比较简单,只是从hive表里读取的数据量很大,差不多60+G, 并且需要将某些hive表读取到dirver节点上,用来获取每个executor上某些数据的映射值, 所以driver设定的...
-
spark 大数据 数据仓库 基本信息
数据仓库基本理论 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。...
-
spark scala 大数据 2023
需求: 1、做某个文件的词频统计//某个单词在这个文件出现次数 步骤: 1、文件单词规律(空格分开) 2、单词切分 3、单词的统计 (k,v)-˃(k:单词,V:数量) 4、打印 框架: 1、单例对象,main( 2、创建...
-
大数据 Spark升级中对log4j的一些思考
背景 最近在做Spark版本的升级(由spark3.1升级到spark3.5 ,其实单纯从spark升级涉及到的log4j来说,并没有什么能够记录的, 但是由于公司内部做了Spark的serveless,把spring和sp...
-
kafka spark 数据库 hadoop 大数据开发是做什么的?怎样入门?
其实现在有很多小伙伴看中了大数据的发展前景,但是其实不知道大数据开发具体是做什么的,又该怎么学习?学习了之后又该做什么? 下面具体给你分析下大数据开发是做什么的,又需要学习和掌握哪些技能~ 大数据开发做什么? 大数据开发分两...
-
大数据 【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解
spark-shell 任务提交任务参数选项说明示例源码详解 文章目录 spark-shell 任务提交任务参数选项说明示例源码详解参数说明常规选项:仅在集群模式下生效:仅适用于YARN:仅适用于Spark Standa...
-
搜索引擎 基于spark法律服务大数据智能推荐
法律服务大数据智能推荐 背景 随着互联网和信息技术的快速发展,电子商务、网上服务与交易等网络业务越来越普及,这些操作会产生大量数据(或海量数据),用户想要从海量数据中快速准确地寻找到自己感兴趣的信息已经变得越来越困难,这也就...
-
big data spark scala 训练xgboost模型,输出测试集AUC、precison、recall、f1-score
spark scala 训练xgboost模型,输出测试集AUC、precison、recall、f1-score 使用的数据集链接: 训练集 https://alink-release.oss-cn-beijing.ali...
-
spark 大数据 Scala文件操作
Scala文件操作 1. 读取数据1.1 按行读取1.2 按字符读取Scala使用source.buffered方法按字符读取文件什么是source.buffered方法如何使用source.buffered方法 一...
-
spark big data scala createOrReplaceTempView原理以及效率优化之cache与persist
1. 前言 在spark程序实际开发过程中遇到需要对文件内容做join操作,使用createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql( 方式利用sql语句做join操...
-
java hadoop 【云计算】3台虚拟机完成Spark Yarn集群部署并编写Scala应用程序实现单词计数统计
目录 1.准备环境 2.安装spark并配置环境 3.安装scala并配置环境 4.安装编辑器idea 5.编写Spark Scala应用程序实现单词计数统计 6.Spark On Yarn配置 1.准备环...
-
scala big data (10)spark sql 笔记--01基本使用
数据结构上下文环境对象DataFrame语法风格 DataSetRDD & DataFrame & DataSet 三者 相互转化UDF函数 数据结构 有两种数据结构: DataFrame: 在原有RDD的基础上 加上...
-
big data hdfs Spark提交报错:1 node(s) are excluded in this operation
提交spark on yarn作业报错: 主要错误信息“There are 1 datanode(s running and 1 node(s are excluded in this operation”,有一个dat...
-
scala 大数据Spark HA高可用一键启动
三台机器node4 node5 node6 node4为主节点 在node5的/root目录下放置下面两个文档 zk-status.py print('node5 是 leader' 在node6的/root/下放置...
-
开发语言 后端 大数据 spark 【Scala集合】18、Queue和Stack
文章目录 一、Queue队列 1、可变队列 2、不可变队列 二、Stack栈 1、可变栈 2、不可变栈一、Queue队列 在 Scala 中,Queue 是一种先进先出(FIFO)的集合类型,用...
-
hadoop 基于前置搭建的 Hbase 环境上配置 Spark 开发环境
1. 准备工作及说明 本次安装考虑在不影响前置环境(Hbase环境)的基础下添加 Spark 的工作环境Spark 集群部署采用 yarn 模式进行资源调度管理,这样部署更加简单,因 Hadoop 在之前已经进行集群安装,S...
-
hadoop hdfs 【spark运行报错】
如果在程序中使用了Hadoop相关的东西,比如写入文件到HDFS,则会遇到如下异常: 出现这个问题的原因,并不是程序的错误,而是用到了Hadoop相关的服务,解决办法: 配置HADOOP_HOME环境变量 如果出现这个问题...
-
大数据 hadoop Spark 基本知识介绍
文章目录 1. Spark是什么2. Spark与Hadoop区别3. Spark四大特点3.1 速度快3.2 易于使用3.3 通用性强3.4 运行方式 4. Spark整体框架5. Spark运行模式6. Spark...
-
java big data 大数据 spark Scala高级语法入门 (六)Scala中的异常&隐式转换&泛型
♂️♂️ 写在前面 个人主页:csdn春和 推荐专栏:更多专栏尽在主页! JavaWeb专栏(从入门到实战超详细!!!) SSM专栏 (更新中…) 本期文章:Scala高级语法入门 (六)S...
-
大数据 scala rdd 分布式 Spark 磁盘作用
Spark 磁盘作用 磁盘作用性能价值失败重试ReuseExchange Spark 导航 磁盘作用 临时文件、中间文件、缓存数据,都会存储到 spark.local.dir 中 在 Shuffle Map 时, 当内存空...
-
大数据 Spark常见性能优化
一、常规性能优化 1、Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分 配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的 性能调优策略。 资源的分配在使用脚本...
-
python scala Spark Local模式的基本原理及部署
文章目录 基本原理安装部署总结 基本原理 Local模式的本质就是启动一个JVM Process进程(里面有多个进程),执行任务Task Local模式可以限制模拟Spark环境的线程数量,即Local[N] 或 L...
-
idea scala spring boot 【Spark3.2】io.netty.buffer.PooledByteBufAllocator.<init>(ZIIIIIIZ)V
前言报错解决方案 后记 前言 在IDEA使用SpringBoot集成Spark3.2写了一个SparkStreaming程序,通过打jar包的方式提交集群运行十分顺利,但是在IDEA调试运行(local模式)main方法...
-
(面试版)大数据组件的区别总结(hive,hbase,spark,flink)
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spa...
-
大数据 Hadoop+Spark和Rabbitmq高可用集群部署
目录 一、节点与组件架构 二、服务器及网络配置要求 三、基本环境配置要求 四、安装包准备 五、Zookeeper部署 六、Hadoop部署 七、Spark部署 八、RabbitMQ部署 一、节点与组件架构 ...
-
大数据 【Spark】spark使用jdbc连接带有kerberos认证的hive jdbc
背景 这个需求就是spark不通过spark-hive的方式访问hive数据,而是通过spark读取hive jdbc的方式访问hive数据,因为这个hive有kerberos认证,在网上也不是很容易搜索到这样的操作案例。不...
-
hive 大数据 hadoop 数据仓库 SparkSql中多个Stage的并发执行
写一篇水水的技术文,总结一下sparksql中不同stage的并行执行相关,也是来自于一位群友的提问: 我们群里有很多技术很棒并且很热心的大佬,哈哈~ Hive中Job并发执行 hive中,同一sql里,如果涉及到多个job...
-
大数据 big data etl工程师 hive Spark常见错误剖析与应对策略
问题一: 日志中出现:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 原因分析:...
-
大数据 hive/spark数据倾斜解决方案
Hive数据倾斜以及解决方案 1、什么是数据倾斜 数据倾斜主要表现在,mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key...
-
big data 数据库 大数据 数据仓库 Spark3.0新特性-AQE
想要更全面了解Spark内核和应用实战,可以购买我的新书。 《图解Spark 大数据快速分析实战》(王磊 【摘要 书评 试读】- 京东图书https://item.jd.com/13613302.html 1.AQE的概念...
-
大数据 分布式 Pyspark 基础知识
文章目录 1. PySpark简介2. PySpark应用程序2.1 PySpark实现WordCount 3. PySpark 执行原理 1. PySpark简介 PySpark 是Spark官方提供的一个Pytho...
-
hadoop hive on spark hql 插入数据报错 Failed to create Spark client for Spark session Error code 30041
文章目录 一、遇到问题二、排查过程:0、确认 hive、spark 版本1、确认 SPARK_HOME 环境变量2、hive 创建的 spark 配置文件3、确认是否创建 hdfs 存储历史日志路径4、确认 是否上传 Sp...
-
怎么判断Spark程序在Driver端运行还是Executor端运行
前言 实习生:怎么知道我的spark代码中哪些是在driver端运行,哪些是在executor端运行? 我: 算子中的部分就在executor,其它的在driver 实习生:…呃…你能证明你说的是对的吗? 直观的感受代码运...
-
大数据 数据仓库 Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog,DDL,隐藏分区(按年,月,天,小时),create(replace) T as select ..., ...
Spark3.1.2与Iceberg0.12.1整合 Spark可以操作Iceberg数据湖,这里使用的Iceberg的版本为0.12.1,此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Icebe...
-
开发语言 数据仓库 spark java和大数据开发该选择哪个好就业?
java开发和大数据开发无疑都是当前很热门的语言,很多小伙伴在选择方向的时候也是难以取舍~ 其实无论选择哪个语言作为工作的语言,都是要看你个人的兴趣点和未来想发展的方向的~下面给你列举下两个岗位的发展前景以及岗位,就可以根据...
-
大数据 spark scala hbase Apache Flink 实时计算在美的多业务场景下的应用与实践
摘要:本文整理自美的集团实时数据负责人、资深数据架构师董奇,在 Flink Forward Asia 2022 主会场的分享。本篇内容主要分为四个部分: 实时生态系统在美的的发展和建设现状 核心传统业务场景 Flin...