spark - 第15页 - 金钥匙

网站首页 > spark 第15页

ai写作怎么用 2024-05-02 大数据 hadoop HDFS

大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清？

Hadoop是大数据开发的重要框架，是一个由Apache基金会所开发的分布式系统基础架构，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，在Hadoop2.x时...

数据库

14查看

0评论
chatai中文免费版 2024-04-30 hadoop Hive spark

Failed to execute spark task, with exception ‘org.apache.hadoop.hive.ql.metadata.

在 Hive中第一次添加表的记录，出现：显示执行不了spark task，网上很多都说在 /opt/module/hive/conf/hive-site.xml文件中添加超时设置，我设置了，还是不行。最后通过不断增加超时...

数据库

13查看

0评论
python做一个管理系统 2024-04-26 大数据 spark Mysql

数据仓库【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

【大数据技术】spark SQL如何连接MySQL并读取数据 1、配置连接MySQL的驱动根据自己安装的MySQL的版本，找到正确的驱动文件，我的是MySQL8.0.19 所以驱动文件是mysql-connector-ja...

数据库

11查看

0评论
怎么查个人大数据 2024-04-22 spark scala 大数据

scala 大数据 Spark源码解读由浅入深宽窄依赖篇

文章目录第一部分宽窄依赖篇1.依赖关系概述2.依赖分类2.1` Dependency `继承 Serializable2.2 `NarrowDependency `窄依赖，继承 Dependency2.3` OneTo...

后端

13查看

0评论
Oracle数据库是什么 2024-04-12 spark 大数据分布式

spark 大数据分布式 2023

引言：流式数据处理主要处理实时数据，由于实验教学过程中，每个同学无法拿到实时数据，因此我们开发shell脚本模拟实时数据生成，支持后续实验。实验目的：通过开发模拟实时点击流shell脚本，模拟实时点击流数据生成，支持后续实...

数据库

14查看

0评论
大数据分析的app 2024-04-10 数据仓库 spark 大数据

spark 大数据【数据仓库设计基础（四）】数据仓库实施步骤

文章目录 1．定义范围2．确定需求3．逻辑设计1）建立需要的数据列表2）识别数据源3）制作实体关系图 4．物理设计1）性能优化2）数仓的拓展性 5．装载数据6．访问数据7．管理维护实施一个数据仓库项目的主要步骤是...

数据库

16查看

0评论
管理信息系统分析与设计 2024-04-03 spark 大数据数据仓库

大数据数据仓库 big data Spark三种常见JOIN方式

Spark join 基本原理 Spark join的基本实现流程如下图所示，Spark将参与Join的两张表抽象为流式表(StreamTable 和查找表(BuildTable ，通常系统会默认设置StreamTable为...

数据库

16查看

0评论
学软件开发需要什么基础知识 2024-03-30 spark hbase

【Hbase 06】spark读写Hbase数据库以及Hbase util工具常用方法类封装（java和scala版本）

Spark处理的数据有很多是存放在HBase数据库中的，所以，我们需要学会如何读写HBase数据库。HBase是针对谷歌BigTable的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半...

后端

11查看

0评论
编程教育是什么 2024-02-11 Hive MapReduce spark

hive的引擎mapreduce、tez和spark对比

hive引擎简介 Hive 的执行引擎包括以下几种： Hive on MapReduce Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任...

数据库

16查看

0评论
区块链技术通俗讲解 2024-02-03 大数据 spark scala

scala 【大数据】Spark及SparkSQL数据倾斜现象和解决思路

数据倾斜分类 join其中一个表数据量小，key比较集中分发到某一个或几个reduce的数据远高于平均值大表与小表，空值过多这些空值都由一个reduce处理，处理慢group bygroup by 维度太少，某字段量太大处...

后端

11查看

0评论
服务器运维工作一个月多少钱 2024-01-23 spark 大数据分布式

大数据分布式 Spark在数据科学中的应用案例分析

Spark在数据科学中的应用案例分析在数据科学领域，Apache Spark已经成为一个不可或缺的工具。其强大的分布式计算能力和丰富的数据处理功能使得数据科学家能够高效地处理大规模数据集，并从中提取有价值的信息。本文将通过...

数据库

15查看

0评论
软件开发视频课程 2024-01-19 spark 学习笔记

python 大数据 spark之transformation算子学习笔记(scala,pyspark双语言)

目录一、value类型算子1.1 map1.2 flatMap1.3 filter1.4 mapPartitions1.5mapPartitionsWithIndex1.6 groupBy1.7distinct1.8co...

数据库

18查看

0评论
软件开发转型 2024-01-12 scala hadoop spark

scala hadoop Spark编程进阶学习

环境准备: 配置的时候确实很麻烦… win10和Linux下环境都要配置好文章目录运行Spark程序在开发环境下运行Spark在集群环境中运行Spark在IDEA中打包工程(输出JAR 编译生成Artifact...

后端

12查看

0评论
图形化编程的好处 2024-01-12 大数据 flink spark

大数据 wordcount 【学习笔记 - Flink】Flink，Spark Word Count 对比

背景介绍由于平时工作使用 Spark 较多，在 WordCount 这一个小 Demo 中，我也好奇，同为大数据计算组件，且同为 scala，会有多少不同？我相信能从中了解 Flink，Spark的设计逻辑的不同...

后端

12查看

0评论
ios音视频开发 2024-01-12 spark 大数据分布式

大数据分布式什么是Spark，spark Core，Spark SQL，Scala概述，Scala运算符，程序流程控制，Scala循环，Scala集合，集合中常用元素操作，Scala模式匹配，Scala进阶

目录章节一 Spark简介什么是Spark Spark RDD in-memory 的计算框架 Spark 的发展历史 Spark 的主要功能 Spark 生态圈 Spark Streaming构架： Spark...

后端

13查看

0评论
大数据出来干什么工作 2024-01-12 spark 大数据 scala

大数据 scala SparkRDD

什么是RDD RDD叫做弹性分布式数据集，Spark进行计算的数据容器，RDD的来源可以是HDFS RDD特性只读：不能修改，只能通过转换操作生成新的RDD 基于内存：弹性：计算过程中内存不够时分布式：可以分布在多台机...

后端

11查看

0评论
中国软件开发公司50强 2024-01-12 spark 分布式 sql

scala 数据库【Spark分布式内存计算框架——Spark SQL】11. External DataSource（中）parquet 数据

6.3 parquet 数据 SparkSQL模块中默认读取数据文件格式就是parquet列式存储数据，通过参数【spark.sql.sources.default】设置，默认值为【parquet】。范例演示代码：直接lo...

后端

10查看

0评论
程序员自学 2024-01-12 spark scala 大数据

scala 大数据如何将spark程序打jar包并上传至本地集群环境运行

配置spark在本地上运行 1、配置本地环境（我的本地系统为win10）（1）在官网下载spark安装包：spark-3.0.0-bin-hadoop3.2.tgz，下载页面见下图：（2）解压spark安装包到本地磁盘，...

后端

13查看

0评论
人工智能软件开发 2024-01-12 spark intellij-idea scala

intellij-idea spark-在IDEA中搭建scala编程环境

第一步，新建maven工程，配置pom.xml（配置依赖时，要注意spark版本的对应，在最后说明）第二步，在idea上下载scala-sdk。（2.12.4）（如果已经添加了就不用再添加）点击 Add Framewor...

后端

10查看

0评论
ai绘图软件 2024-01-12 大数据 spark SSM

java项目-第96期基于ssm+hadoop+spark的电影推荐系统-大数据毕业设计

java项目-第96期基于ssm+hadoop+spark的电影推荐系统【源码请到资源专栏下载】 1、项目简述电影推荐系统，基于大数据分析的推荐系统，适合学习和企业应用。首先电影推荐相对于其它推荐来说比较简单。相对于短...

数据库

10查看

0评论
计算机嵌入式就业前景 2024-01-11 spark 分布式 scala

scala 架构 java 【Spark分布式内存计算框架——Spark 基础环境】3. 快速入门（下）案例：词频统计、运行圆周率

词频统计WordCount 大数据框架经典案例：词频统计WordCount，从文件读取数据，统计单词个数。 MapReduce WordCount 首先回顾一下MapReduce框架如何实现，流程如下图所示：第一步、M...

后端

13查看

0评论
达梦sysdba初始密码 2024-01-11 spark 大数据 scala

大数据 hadoop Spark 安装及WordCount编写（Spark、Scala、java三种方法）

Spark 官网：Apache Spark™ - Unified Engine for large-scale data analytics Spark RDD介绍官网：https://spark.apache.org/do...

后端

15查看

0评论
最近有鸿蒙技术论坛吗 2024-01-11 大数据 spark scala

大数据 spark java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize报错

发现问题今天提交任务（spark-submit），前面读取任务都十分的顺利只是跑到这个部分的时候，就开始疯狂报错反复提交了好几遍总觉得哪里有点问题寻找问题原来我的pom文件配置有点小问题，上次本地测试数据的时候把...

后端

12查看

0评论
软件测试的5个基本流程 2024-01-11 scala spark 大数据

scala spark 大数据 StructuredStreaming Sink

append 默认追加模式, 将新的数据输出，只支持简单查询 complete 完整模式，支持聚合和排序 update 更新模式，支持聚合不支持排序，没有聚合和append一样下面这段操作，有聚合，有排序，只能用co...

后端

15查看

0评论
计算机入门自学教程 2024-01-11 spark 大数据

大数据 spark-单条记录含有多个号码的人员信息，把有交集号码的合并。

实现具体功能，如下图：合并前的增量和历史数据有红色一对，和绿色一对的号码是相同的。因此可以认定，id是 10001 和 10003 是同一人。10002和10004是同一人。最终取较小的id作为人员id，分别是合并结...

后端

12查看

0评论
系统分析的内容 2024-01-11 spark scala 大数据

scala 大数据 spark中distinct函数去重原理

spark中的distinct函数去重方式和Scala中的distinct是不同的。首先来看Scala中的distinct: 然后来看源码：从源码中可以看到，Scala中的distinct函数是使用HashSet来去重的...

后端

15查看

0评论
c语言入门自学零基础 2024-01-11 spark scala 大数据

scala 大数据 Spark基础【RDD转换算子】

文章目录一 RDD单Value类型转换算子1 filter2 sample3 coalesce4 repartition5 distinct6 sortBy 二 RDD双Value类型转换算子1 intersecti...

后端

13查看

0评论
windows应用开发 2024-01-11 spark scala 大数据

scala 大数据 spark 读取 tar.gz 文件

一、准备工作（Window 中使用 7-zip 生成）一个json文件压缩成 tar.gz t.json 生成 tar 包将 tar 包在压缩为 gz 二、使用Spark 读取 tar.gz 2.1、使用 s...

后端

15查看

0评论
学编程免费全套教程 2024-01-10 spark 大数据分布式

大数据 Spark分布式内存计算框架

目录一、Spark简介（一）定义（二）Spark和MapReduce区别（三）Spark历史（四）Spark特点二、Spark生态系统三、Spark运行架构（一）基本概念（二）架构设计（三）Spark运行...

后端

16查看

0评论
al免费写文 2024-01-10 spark scala hadoop

spark scala hadoop DStream转换操作

Spark Streaming中对DStream的转换会转变成对RDD的转换操作，流程如下：其中，lines表示转换操作前的DStream，words表示转换操作后生成的DStream。对lines做fla...

后端

13查看

0评论
编程代码图片 2024-01-10 apache spark 大数据

大数据 Apache Spark简介与历史发展

在当今信息爆炸的时代，大数据处理已成为了现实。企业和组织需要处理海量数据来获得有用的信息和见解。Apache Spark作为一个开源的大数据处理框架，已经在大数据领域占据了重要地位。 Apache Spark简介 Apach...

运维

16查看

0评论
硬件设计主要做什么 2024-01-10 数据仓库大数据 spark

大数据 spark 数据仓库相关

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Applicat...

数据库

13查看

0评论
saas小程序商城 2024-01-09 大数据 spark-ml scala

spark-ml scala 【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 协同过滤————电影推荐协同过滤是利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。在协同过滤算法中有着两个分支，分别是基于群体用户的协同过滤（UserCF...

数据库

14查看

0评论
什么是编程课入门教程 2024-01-09 spark 大数据分布式

spark 大数据分布式 2023

SparkStreaming入门案例一、准备工作二、任务分析三、官网案例四、开发NetWordCount 一、准备工作实验环境：netcat 安装nc：yum instal...

数据库

17查看

0评论
低代码开发平台 2024-01-09 pycharm spark python

python pycharm连接虚拟机中的spark

1.打开pycharm 2.解压hadoop，解压到windows下面，切记不要有中文路径 3.解压spark，解压到windows下面，切记不要有中文路径 4. 把haoop，sprk对应的环境变量配置到pycharm中...

数据库

19查看

0评论
系统设计与开发 2024-01-09 spark Broadcast Accumulators

Broadcast Accumulators 广播变量累加器 6.Spark共享变量

目录概述共享变量共享变量的工作原理Broadcast VariableAccumulator 结束概述共享变量共享变量的工作原理Broadcast VariableAccumulator 共享变量共享变...

数据库

13查看

0评论
编程相关证书 2024-01-09 spark Hive sql

Spark内容分享(二十六)：Hive SQL 迁移 Spark SQL 在网易传媒的实践

目录引言迁移背景迁移方案设计迁移成果总结引言把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql...

数据库

16查看

0评论
c++开发语言 2024-01-09 spark intellij-idea 大数据

intellij-idea 大数据【无标题】spark源码编译报错`Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile

修改Spark源代码重新编译时候报错对Spark源码进行一些改进的时候，在重新编译项目的时候会报错，Failed to execute goal net.alchim31.maven:scala-maven-plugin:...

数据库

17查看

0评论
编程基础知识 2024-01-09 kubernetes spark kafka

kubernetes k8s提交spark应用消费kafka数据写入elasticsearch7

一、k8s集群环境 k8s 1.23版本，三个节点，容器运行时使用docker。 spark版本时3.3.3 k8s部署单节点的zookeeper、kafka、elasticsearch7 二、spark源码命令行提交方...

数据库

13查看

0评论
开源搜索 2024-01-09 spark 大数据 hadoop

大数据 hadoop Spark 初识

文章目录 Spark 初识Spark是什么Apache Spark演变为什么使用Spark全快 Spark组件Spark CoreSpark SQLSpark StreamingSpark MLlibSpark G...

数据库

14查看

0评论
自媒体专业 2024-01-09 spark 大数据

spark 大数据 RDD算子——概念及部分操作

RDD 的算子分类特点 Spark 中所有的 Transformations 是 Lazy (惰性的，它们不会立即执行获得结果，相反，它们只会记录在数据集上要应用的操作.只有当需要返回结果给 Driver 时，才会执...

后端

16查看

0评论
数据库管理系统软件有哪些 2024-01-09 spark hadoop HDFS

spark hadoop hdfs YarnClientSchedulerBackend: Yarn application has already exited with state FAILED

在启动spark-shell --master yarn 中我们会发现spark-shell启动时报错这时我们访问yarn进程看历史记录看看启动时报错异常:ERRORorg.apache.hadoop.hdfs.serve...

数据库

15查看

0评论
编程语法是什么意思 2024-01-09 scala spark big data

big data Spark学习笔记02：Scala安装

目录一、在线运行Scala 二、选择Scala版本三、在Windows上安装Scala （一）、到Scala官网下载Scala （二）、安装Scala （三）、配置Scala环境变量（四）、测试Scala是否安装成功...

后端

13查看

0评论
计算机哪个专业最吃香 2024-01-09 spark sql scala

scala Spark SQL案例：计算平均分

文章目录一、提出任务二、完成任务（一）新建Maven项目（二）添加相关依赖和构建插件（三）创建日志属性文件（四）创建计算平均分单例对象（五）本地运行程序，查看结果一、提出任务有多科成绩表，比如python.txt、s...

后端

17查看

0评论
自媒体和新媒体的区别 2024-01-09 spark scala 大数据

scala 大数据 Spark概述及快速上手

目录 1. Spark概述 Hadoop与spark的区别 2. 创建Maven项目（1）创建Maven项目（2）增加scala （3）开发scala (1 环境搭建 (2 编写代码 1. Spark概述...

后端

14查看

0评论
编程课网课免费 2024-01-07 大数据 hadoop spark

VM虚拟机大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩...

数据库

16查看

0评论
软件开发职业 2024-01-07 spark 分布式大数据

大数据部署spark为分布式集群(on standload)

部署spark为分布式集群(on standload 实验简介通过本实验，了解spark框架，掌握配置Spark集群大体步骤任务要求 1、安装JDK 2、配置ssh密码登陆 3、部署spark 集群，启动spark-s...

数据库

18查看

0评论
微信小程序开发 2024-01-07 kafka spark 大数据

大数据 mapreduce 分布式 Spark Streaming对接Kafka

4、Spark Streaming对接Kafka 4.1 对接数据的两种方式在前面的案例中，我们监听了来自网络端口的数据，实现了WordCount，但是在实际开发中并不是这样。我们更多的是接收来自高级数据源的数据，例如Ka...

数据库

17查看

0评论
人工智能就业方向及前景 2024-01-07 spark 大数据

大数据 Spark Structured Streaming使用教程

文章目录 1、输入数据源2、输出模式3、sink输出结果4、时间窗口4.1、时间窗口4.2、时间水印（Watermarking） 5、使用例子 Structured Streaming是一个基于Spark SQL引...

数据库

15查看

0评论
如何自学编程 2024-01-07 spark 大数据分布式

大数据分布式 Spark 单机搭建实战指南

摘要：本文将详细介绍如何在单台机器上搭建 Spark 分布式计算框架，涵盖环境准备、安装配置、运行测试等多个方面，帮助读者轻松上手 Spark 开发。一、引言 Apache Spark 是一个开源的分布式计算系统，提供了强...

数据库

15查看

0评论

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 17 18 19 20 21