spark - 第16页 - 金钥匙

网站首页 > spark 第16页

大数据开发就业前景 2024-05-14 scala spark 学习

一文入门Scala(学习Spark必备)

Scala简介 Scala是一门类Java的多范式语言，它整合了面向对象编程和函数式编程的最佳特性。具体来讲 Scala运行于Java虚拟机（JVM 之上，井且兼容现有的Java程序，同样具有跨平台、可移植性好、方便的垃圾回...

后端

16查看

0评论
人工智能aigc 2024-04-27 spark 大数据 scala

大数据 scala Spark运行模式介绍

文章目录 1. Local运行模式1.1 基本运行情况介绍1.2 角色划分1.3 Spark 任务提交与解释器对比 2. StandAlone运行模式2.1 StandAlone介绍2.2 StandAlone架构2....

后端

13查看

0评论
学前端还是后端好找工作 2024-04-17 spark 大数据 scala

大数据 scala spark动态资源

动态资源分配策略在空闲时释放 Executor，繁忙时申请 Executor。它可以防止小数据申请大资源，Executor 空转的情况。在集群资源紧张，有多个 Spark 应用的场景下，可以开启动态分配达到资源按需使用...

后端

14查看

0评论
软件开发需要学什么 2024-04-11 hbase spark HDFS

Spark写入数据到Hbase（hdfs bulkload方式）

运行系统变量配置kerberossparksession配置spark对hbase的依赖配置spark sql读取源数据将数据转换为HFile格式使用HBase的bulkload功能将HFile加载到HBase表中 spak...

数据库

17查看

0评论
测试电脑硬件的软件 2024-04-06 spark 大数据分布式

大数据分布式 windows10搭建spark本地开发环境

windows10搭建spark本地开发环境 1. spark概述2. 安装spark2.1 Windows10 安装Spark本地开发环境2.1.1 **版本说明**2.1.2 **环境准备**2.1.2.1 JDK 安...

后端

13查看

0评论
算法与软件开发 2024-03-27 spark sql 大数据

大数据【spark客户端】Spark SQL CLI详解：怎么执行sql文件、注释怎么写，支持的文件路径协议、交互式模式使用细节

文章目录一. Spark SQL Command Line Options(命令行参数二. The hiverc File1. without the -i2. .hiverc 介绍三. 支持的路径协议四. 支持...

数据库

15查看

0评论
AI如何在软件开发中使用 2024-03-27 Hive Java scala

spark 如何用Java和Scala编写Hive的UDF函数：解析Json字符串

1. 前言在实际的数据处理中，我们经常需要对数据进行各种各样的计算和处理，例如字符串的拼接、日期的转换、数值的运算等等。Hive作为一款基于Hadoop生态圈的数据仓库工具，提供了UDF（User-Defined Fu...

后端

17查看

0评论
微软证书 2024-03-23 性能优化 spark sql

性能优化：Spark SQL中的谓词下推和列式存储

Apache Spark是一个强大的分布式计算框架，Spark SQL是其一个核心模块，用于处理结构化数据。性能优化是大数据处理中的一个关键问题，本文将深入探讨Spark SQL中的两个性能优化技术：谓词下推（Predica...

综合

17查看

0评论
软件开发 2024-03-12 hadoop 大数据 spark

hadoop 大数据 scala Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。保险一点删除最好。 Scal...

后端

13查看

0评论
代码入门教学 2024-03-06 Hive spark HDFS

Spark读取Hive数据的两种方式与保存数据到HDFS

Spark读取Hive数据的两种方式与保存数据到HDFS Spark读取Hive数据的方式主要有两种 1、通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和...

数据库

17查看

0评论
软件开发 2024-02-17 scala spark 大数据

大数据 scala spark dataframe 时间加减

参考Adding 12 hours to datetime column in Spark 只针对标准化时间戳如果是 yyyy-MM-dd HH:mm 转换后会自动补到 HH:mm:ss ss位补0 时间英文简写查询...

后端

14查看

0评论
计算机嵌入式就业前景 2024-02-17 flink 大数据 spark

大数据 spark Flink知识点总结 Flink简介

Flink简介 Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务：Da...

数据库

16查看

0评论
腾讯云原生 2024-02-04 spark 笔记大数据

Spark大数据分析与实战笔记（第二章 Spark基础-04）

文章目录每日一句正能量引言章节概要2.4 体验第一个Spark程序2.4.1 运行Spark官方示例SparkPi 总结每日一句正能量 “春风十里，不如你。” 这句来自现代作家安妮宝贝的经典句子，它表达了对他人的...

前端

16查看

0评论
编程技术 2024-02-04 数据仓库 spark 大数据

spark 大数据数据仓库模型设计V2.0

一、数仓建模的意义数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后，数据才能得到高性能、低成本、高效率、高质量的使用。高性能：良好的数据模型能够帮助我们快...

数据库

14查看

0评论
软件开发平台 2024-01-31 spark scala 大数据

spark scala 大数据 Still have 1 requests outstanding when connection from slaveX/X.X.X.X:33202 is closed

我加了如下的参数运行的程序其实逻辑上比较简单，只是从hive表里读取的数据量很大，差不多60+G，并且需要将某些hive表读取到dirver节点上，用来获取每个executor上某些数据的映射值，所以driver设定的...

后端

16查看

0评论
网络安全运维工作内容 2024-01-29 数据仓库 spark 大数据

spark 大数据数据仓库基本信息

数据仓库基本理论数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。...

移动端

14查看

0评论
大数据五大基本特点 2024-01-26 spark scala 大数据

spark scala 大数据 2023

需求： 1、做某个文件的词频统计//某个单词在这个文件出现次数步骤： 1、文件单词规律（空格分开） 2、单词切分 3、单词的统计（k,v）-˃(k:单词，V：数量） 4、打印框架： 1、单例对象，main( 2、创建...

后端

15查看

0评论
网络连接系统 2024-01-19 spark log4j 大数据

大数据 Spark升级中对log4j的一些思考

背景最近在做Spark版本的升级(由spark3.1升级到spark3.5 ，其实单纯从spark升级涉及到的log4j来说，并没有什么能够记录的，但是由于公司内部做了Spark的serveless，把spring和sp...

后端

13查看

0评论
c++和python先学哪个 2024-01-07 大数据 kafka spark

kafka spark 数据库 hadoop 大数据开发是做什么的？怎样入门？

其实现在有很多小伙伴看中了大数据的发展前景，但是其实不知道大数据开发具体是做什么的，又该怎么学习？学习了之后又该做什么？下面具体给你分析下大数据开发是做什么的，又需要学习和掌握哪些技能~ 大数据开发做什么？大数据开发分两...

数据库

16查看

0评论
万能运维app 2024-01-07 spark 大数据

大数据【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解

spark-shell 任务提交任务参数选项说明示例源码详解文章目录 spark-shell 任务提交任务参数选项说明示例源码详解参数说明常规选项：仅在集群模式下生效：仅适用于YARN：仅适用于Spark Standa...

数据库

17查看

0评论
硬件设计主要做什么 2024-01-07 大数据 spark 搜索引擎

搜索引擎基于spark法律服务大数据智能推荐

法律服务大数据智能推荐背景随着互联网和信息技术的快速发展，电子商务、网上服务与交易等网络业务越来越普及，这些操作会产生大量数据（或海量数据），用户想要从海量数据中快速准确地寻找到自己感兴趣的信息已经变得越来越困难，这也就...

数据库

15查看

0评论
学人工智能去哪个学校 2024-01-06 scala spark big data

big data spark scala 训练xgboost模型，输出测试集AUC、precison、recall、f1-score

spark scala 训练xgboost模型，输出测试集AUC、precison、recall、f1-score 使用的数据集链接：训练集 https://alink-release.oss-cn-beijing.ali...

后端

17查看

0评论
软件开发流程八个步骤 2024-01-06 scala spark 大数据

spark 大数据 Scala文件操作

Scala文件操作 1. 读取数据1.1 按行读取1.2 按字符读取Scala使用source.buffered方法按字符读取文件什么是source.buffered方法如何使用source.buffered方法一...

后端

16查看

0评论
我的机器人女友 2024-01-06 spark big data scala

spark big data scala createOrReplaceTempView原理以及效率优化之cache与persist

1. 前言在spark程序实际开发过程中遇到需要对文件内容做join操作，使用createOrReplaceTempView 方式将读取的文件创建临时表，然后通过 spark.sql( 方式利用sql语句做join操...

后端

15查看

0评论
金色旭光 2024-01-06 云计算 Java hadoop

java hadoop 【云计算】3台虚拟机完成Spark Yarn集群部署并编写Scala应用程序实现单词计数统计

目录 1.准备环境 2.安装spark并配置环境 3.安装scala并配置环境 4.安装编辑器idea 5.编写Spark Scala应用程序实现单词计数统计 6.Spark On Yarn配置 1.准备环...

后端

16查看

0评论
c++开发语言 2024-01-06 spark scala big data

scala big data （10）spark sql 笔记--01基本使用

数据结构上下文环境对象DataFrame语法风格 DataSetRDD & DataFrame & DataSet 三者相互转化UDF函数数据结构有两种数据结构： DataFrame: 在原有RDD的基础上加上...

后端

12查看

0评论
嵌入式开发 2024-01-06 spark big data HDFS

big data hdfs Spark提交报错：1 node(s) are excluded in this operation

提交spark on yarn作业报错：主要错误信息“There are 1 datanode(s running and 1 node(s are excluded in this operation”，有一个dat...

数据库

17查看

0评论
开发者app下载 2024-01-06 大数据 spark scala

scala 大数据Spark HA高可用一键启动

三台机器node4 node5 node6 node4为主节点在node5的/root目录下放置下面两个文档 zk-status.py print('node5 是 leader' 在node6的/root/下放置...

后端

13查看

0评论
运维工程师的工作内容 2024-01-06 scala 开发语言后端

开发语言后端大数据 spark 【Scala集合】18、Queue和Stack

文章目录一、Queue队列 1、可变队列 2、不可变队列二、Stack栈 1、可变栈 2、不可变栈一、Queue队列在 Scala 中，Queue 是一种先进先出（FIFO）的集合类型，用...

后端

14查看

0评论
python初学 2024-01-06 hbase spark hadoop

hadoop 基于前置搭建的 Hbase 环境上配置 Spark 开发环境

1. 准备工作及说明本次安装考虑在不影响前置环境（Hbase环境）的基础下添加 Spark 的工作环境Spark 集群部署采用 yarn 模式进行资源调度管理，这样部署更加简单，因 Hadoop 在之前已经进行集群安装，S...

数据库

14查看

0评论
达梦版本 2024-01-06 spark hadoop HDFS

hadoop hdfs 【spark运行报错】

如果在程序中使用了Hadoop相关的东西，比如写入文件到HDFS，则会遇到如下异常：出现这个问题的原因，并不是程序的错误，而是用到了Hadoop相关的服务，解决办法：配置HADOOP_HOME环境变量如果出现这个问题...

数据库

14查看

0评论
ios音视频开发 2024-01-06 spark 大数据 hadoop

大数据 hadoop Spark 基本知识介绍

文章目录 1. Spark是什么2. Spark与Hadoop区别3. Spark四大特点3.1 速度快3.2 易于使用3.3 通用性强3.4 运行方式 4. Spark整体框架5. Spark运行模式6. Spark...

数据库

14查看

0评论
济南小程序开发 2024-01-06 scala Java big data

java big data 大数据 spark Scala高级语法入门（六）Scala中的异常&隐式转换&泛型

‍♂️‍♂️ 写在前面  个人主页：csdn春和  推荐专栏：更多专栏尽在主页！ JavaWeb专栏（从入门到实战超详细！！！） SSM专栏（更新中…）  本期文章：Scala高级语法入门（六）S...

后端

13查看

0评论
程序员自学 2024-01-06 spark 大数据 scala

大数据 scala rdd 分布式 Spark 磁盘作用

Spark 磁盘作用磁盘作用性能价值失败重试ReuseExchange Spark 导航磁盘作用临时文件、中间文件、缓存数据，都会存储到 spark.local.dir 中在 Shuffle Map 时，当内存空...

后端

13查看

0评论
数据结构是计算机最难的课吗 2024-01-05 spark 性能优化大数据

大数据 Spark常见性能优化

一、常规性能优化 1、Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本...

综合

15查看

0评论
数字人虚拟主播软件 2024-01-05 python spark scala

python scala Spark Local模式的基本原理及部署

文章目录基本原理安装部署总结基本原理 Local模式的本质就是启动一个JVM Process进程（里面有多个进程），执行任务Task Local模式可以限制模拟Spark环境的线程数量，即Local[N] 或 L...

后端

14查看

0评论
harmonyos开发者社区介绍 2024-01-05 spark netty idea

idea scala spring boot 【Spark3.2】io.netty.buffer.PooledByteBufAllocator.＜init＞(ZIIIIIIZ)V

前言报错解决方案后记前言在IDEA使用SpringBoot集成Spark3.2写了一个SparkStreaming程序，通过打jar包的方式提交集群运行十分顺利，但是在IDEA调试运行（local模式）main方法...

后端

14查看

0评论
开源运维管理软件 2024-01-05 spark 大数据 Hive

（面试版）大数据组件的区别总结（hive，hbase，spark，flink）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序，hive和spark的区别就是mapreduce和spa...

数据库

14查看

0评论
大数据开发就业前景 2024-01-05 hadoop spark 大数据

大数据 Hadoop+Spark和Rabbitmq高可用集群部署

目录一、节点与组件架构二、服务器及网络配置要求三、基本环境配置要求四、安装包准备五、Zookeeper部署六、Hadoop部署七、Spark部署八、RabbitMQ部署一、节点与组件架构 ...

后端

15查看

0评论
python安装详细步骤 2024-01-05 Hive spark 大数据

大数据【Spark】spark使用jdbc连接带有kerberos认证的hive jdbc

背景这个需求就是spark不通过spark-hive的方式访问hive数据，而是通过spark读取hive jdbc的方式访问hive数据，因为这个hive有kerberos认证，在网上也不是很容易搜索到这样的操作案例。不...

数据库

14查看

0评论
操作系统技术开发 2024-01-05 Hive 大数据 hadoop

hive 大数据 hadoop 数据仓库 SparkSql中多个Stage的并发执行

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：我们群里有很多技术很棒并且很热心的大佬，哈哈~ Hive中Job并发执行 hive中，同一sql里，如果涉及到多个job...

数据库

16查看

0评论
硬件工程师需要学哪些 2024-01-05 spark 大数据 big data

大数据 big data etl工程师 hive Spark常见错误剖析与应对策略

问题一：日志中出现：org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 原因分析：...

数据库

15查看

0评论
网络系统结构 2024-01-05 Hive spark 大数据

大数据 hive/spark数据倾斜解决方案

Hive数据倾斜以及解决方案 1、什么是数据倾斜数据倾斜主要表现在，mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key...

数据库

14查看

0评论
编程教育是什么 2024-01-05 big data 数据库 spark

big data 数据库大数据数据仓库 Spark3.0新特性-AQE

想要更全面了解Spark内核和应用实战，可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊【摘要书评试读】- 京东图书https://item.jd.com/13613302.html 1．AQE的概念...

数据库

14查看

0评论
大数据的基本概念 2024-01-05 spark 大数据分布式

大数据分布式 Pyspark 基础知识

文章目录 1. PySpark简介2. PySpark应用程序2.1 PySpark实现WordCount 3. PySpark 执行原理 1. PySpark简介 PySpark 是Spark官方提供的一个Pytho...

后端

13查看

0评论
免费编程教学视频 2024-01-05 Hive spark hadoop

hadoop hive on spark hql 插入数据报错 Failed to create Spark client for Spark session Error code 30041

文章目录一、遇到问题二、排查过程：0、确认 hive、spark 版本1、确认 SPARK_HOME 环境变量2、hive 创建的 spark 配置文件3、确认是否创建 hdfs 存储历史日志路径4、确认是否上传 Sp...

数据库

12查看

0评论
如何搭建数据库 2024-01-04 spark driver executor

怎么判断Spark程序在Driver端运行还是Executor端运行

前言实习生：怎么知道我的spark代码中哪些是在driver端运行，哪些是在executor端运行？我：算子中的部分就在executor，其它的在driver 实习生：…呃…你能证明你说的是对的吗？直观的感受代码运...

后端

14查看

0评论
编程能干什么 2024-01-04 Hive hadoop 大数据

大数据数据仓库 Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog，DDL，隐藏分区（按年，月，天，小时），create(replace) T as select ..., ...

Spark3.1.2与Iceberg0.12.1整合 Spark可以操作Iceberg数据湖，这里使用的Iceberg的版本为0.12.1，此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Icebe...

数据库

15查看

0评论
机房运维要干哪些工作 2024-01-04 Java 大数据开发语言

开发语言数据仓库 spark java和大数据开发该选择哪个好就业？

java开发和大数据开发无疑都是当前很热门的语言，很多小伙伴在选择方向的时候也是难以取舍~ 其实无论选择哪个语言作为工作的语言，都是要看你个人的兴趣点和未来想发展的方向的~下面给你列举下两个岗位的发展前景以及岗位，就可以根据...

数据库

14查看

0评论
目前软件测试工具 2024-01-04 flink 大数据 spark

大数据 spark scala hbase Apache Flink 实时计算在美的多业务场景下的应用与实践

摘要：本文整理自美的集团实时数据负责人、资深数据架构师董奇，在 Flink Forward Asia 2022 主会场的分享。本篇内容主要分为四个部分：实时生态系统在美的的发展和建设现状核心传统业务场景 Flin...

数据库

13查看

0评论

2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20 21