spark - 第13页 - 金钥匙

网站首页 > spark 第13页

小程序开发 2024-05-13 大数据 linux spark

大数据 hadoop scala 基于Linux的Spark安装与环境配置

文章目录基于Linux的Spark安装与环境配置1、Hadoop测试1.1 启动hadoop1.2 再次启动hadoop1.3 查看是否成功2、Scala安装与配置2.1 下载scala2.2 解压并重命名2.3 配置环境2...

后端

9查看

0评论
国际软件测试工程师认证 2024-05-10 spark 大数据 scala

大数据 scala Spark—idea

新建工程新建maven工程，添加scala添加依赖pom添加依赖并下载 spark-core重复步骤下载spark-sqlspark-hivespark-graphxmysql-connector-java安装完成新建Spa...

后端

8查看

0评论
云原生技术 2024-05-02 数据仓库 spark 大数据

spark 大数据【数据仓库】数仓分层方法详解与层次调用规范

文章目录一. 数仓分层的意义1. 清晰数据结构。2. 减少重复开发3. 方便数据血缘追踪4. 把复杂问题简单化5. 屏蔽原始数据的异常6. 数据仓库的可维护性二. 如何进行数仓分层？1. ODS层2. DW层2.1. DW层...

数据库

8查看

0评论
计算机编程 2024-04-18 大数据 spark 分布式

分布式大数据课程K17——Spark的协同过滤法

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ▲ 本章节目的⚪ 了解Spark的协同过滤概念；一、协同过滤概念1. 概念协同过滤是一种借助众包智慧的途径。它利用大量已有的用户...

数据库

7查看

0评论
软件工程全国高校排名 2024-04-12 spark kafka linq

linq Spark写入kafka（批数据和流式）

Spark写入（批数据和流式处理）Spark写入kafka批处理写入kafka基础# spark写入数据到kafka# 创建df数据df = ss.createDataFrame([[9, '王五', 21, '男'], [...

资讯

9查看

0评论
软件开发培训 2024-04-01 flink 大数据 spark

大数据 spark 为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

Flink 被认为是第三代流处理器，这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想，从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从...

数据库

8查看

0评论
云平台技术 2024-03-17 spark 大数据分布式

大数据分布式 python kafka hadoop hive 2024.1.15 Spark 阶段原理,八股,面试题

目录1. 简述什么是Spark?2. 简述Spark的四大特点3. 简述Spark比Mapreduce执行效率高的原因4. 简述Spark on Yarn的两种部署模式的区别和特点5. Spark底层工作原理是怎样的6. R...

数据库

9查看

0评论
软件开发岗位 2024-03-09 大数据 spark finebi

大数据 matplotlib 基于Spark+Python+FineBi+爬虫的智联招聘计算机行业数据处理分析

绪论spark平台简介 Spark 是一种用于大数据工作负载的分布式开源处理系统。它是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。它提供使用 Java、Scala、Python 和 R 语言...

后端

7查看

0评论
怎么编程做一个小游戏 2024-02-16 spark 大数据 metrics

大数据 ui SPARK中metrics是怎么传递的

背景本文基于spark 3.3.0 在看spark源码的时候，总是会看到类似longMetric("numOutputRows" 的信息，但是一般来说这种metrics的定义一般是在Driver端，而真正的+1或者-1操作都...

后端

8查看

0评论
哥不是小萝莉 2024-02-13 spark 大数据分布式

大数据分布式 big data python 基于地震数据的Spark数据处理与分析

1.题目要求针对全球重大地震数据进行分析，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并对结果进行数据可视化。2.需求分析本项目将使用大数据分析引擎Spark对美国国家地震中心收集...

数据库

9查看

0评论
菜鸟技术猿 2024-01-24 linq c#spark

linq c# 大数据分布式开发语言 SparkStreaming与Kafka整合

1.3 SparkStreaming与Kafka整合1.3.1 整合简述kafka是做消息的缓存，数据和业务隔离操作的消息队列，而sparkstreaming是一款准实时流式计算框架，所以二者的整合，是大势所趋。二者的整合，...

后端

8查看

0评论
设计模式有必要学吗 2024-01-24 maven spark

spark 【问题】Could not calculate build plan: Plugin org.apache.maven.plugins

问题总结问题一 Could not calculate build plan: Plugin org.apache.maven.plugins原因:缺少这个依赖导致，可能是网速问题导致下载失败，可能是windows-˃pre...

后端

8查看

0评论
计算机软件技术开发 2024-01-23 scala spark intellij idea

scala hbase Intellij IDEA编写Spark应用程序的环境配置和操作步骤

本文介绍如何在win系统中使用IDEA开发spark应用程序，并将其打成jar包上传到虚拟机中的三个Ubuntu系统，然后在分布式环境中运行。主要步骤包括：安装Scala插件：在Intellij IDEA中安装Scala插件...

开发工具

7查看

0评论
云原生部署 2024-01-23 大数据 spark python

大数据 spark python DataFrame详解

清洗相关的API清洗相关的API:1.去重API: dropDupilcates2.删除缺失值API: dropna3.替换缺失值API: fillna去重API: dropDupilcatesdropDuplicates(...

产品设计

9查看

0评论
操作系统软件 2024-01-23 spark 大数据分布式

大数据分布式【Spark | SparkStreaming】

原理架构实战RDD 队列自定义数据源用法及说明需要继承 Receiver，并实现 onStart、onStop 方法来自定义数据源采集。//最初启动的时候，调用该方法，作用为：读数据并将数据发送给 Spark//读数据并将...

数据库

9查看

0评论
免费写作神器自动生成 2024-01-23 spark MapReduce 大数据

大数据 Spark内容分享(十二)：Spark 和 MapReduce 的区别及优缺点

总结 Spark 和 MapReduce 的区别及优缺点1、Spark处理数据是基于内存的，而MapReduce是基于磁盘处理数据的MapReduce是将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。Spark是将计...

数据库

9查看

0评论
学软件开发以后能做什么工作 2024-01-23 jar 数据库 Java

数据库 java 大数据 spark HUDI（搭建详细记录附加jar）

目录前言一、Hudi核心概念二、使用步骤1.拉取code 并编译。使用不同的 Spark 版本构建使用不同的 Flink 版本构建1.将编译好的包copy到hive/lib2.启动Hive MetaStore与Hive Se...

数据库

9查看

0评论
chatgpt4.0人工智能网页版 2024-01-23 spark 大数据分布式

大数据分布式数据挖掘 PySpark任务提交spark-submit参数设置一文详解

目录前言一、PySpark集群运行原理二、spark-submit参数详解1.指定运行目录 4.驱动程序和执行器资源 5.--files和--verbose 6.Spark提交配置三.PySpark程序提交配置选项1.构建一...

人工智能

13查看

0评论
人工智能软件开发 2024-01-23 spark 学习笔记

Spark学习笔记

Spark笔记Spark介绍Apache Spark 是一个快速、通用、可扩展的大数据处理框架，它提供了分布式数据处理、机器学习和图计算等功能。Spark 最初是由加州大学伯克利分校的AMPLab实验室开发的，于2010年开...

数据库

7查看

0评论
chatai中文免费版 2024-01-23 spark 大数据分布式

大数据分布式 spark内存管理模型

Spark基本流程1.用户在Driver上创建任务，初始化运行环境 2.Driver根据配置信息，向Resource Manager申请资源 3.Resource Manager资源管理器选择合适的Worker节点创捷Exe...

数据库

9查看

0评论
程序员自学 2024-01-23 flink spark mr

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

总结：Pipelined Shuffle：上游 Subtask 所在 TaskManager 直接通过网络推给下游 Subtask 的 TaskManager；Hash Shuffle-将数据按照下游每个消费者一个文件的形式...

数据库

9查看

0评论
手机代码编程教学 2024-01-23 spark 大数据分布式

大数据分布式 Spark核心--RDD介绍

一、RDD的介绍rdd 弹性分布式数据集是spark框架自己封装的数据类型，用来管理内存数据数据集：rdd数据的格式类似Python中 [] 。 hive中的该结构[] 叫数组rdd提供算子(方法 ...

数据库

7查看

0评论
一个人的编程 2024-01-23 scala spark 大数据

大数据 Scala、Spark的安装及配置

安装Scala1、进入Scala安装包位置，解压2、环境变量3、检验是否安装成功若出现 Scala code runner version 2.11.8 – Copyright 2002-2016, LAMP/EPFL 则说...

数据库

8查看

0评论
手机百度ai入口 2024-01-23 spark 学习大数据

学习大数据 Spark---RDD介绍

文章目录1.Spark核心编程2.RDD介绍2.1.RDD基本原理2.2 RDD特点1.弹性2.分布式：数据存储在大数据集群的不同节点上3.数据集：RDD封装了计算逻辑，并不保存数据4.数据抽象：RDD是一个抽象类，具...

数据库

8查看

0评论
ai绘图 2024-01-23 kafka spark 大数据

kafka 大数据使用Java编写Spark Streaming应用程序（附源代码）

使用Java编写Spark Streaming应用程序的基本步骤：导入必要的依赖项您需要在项目中添加必要的依赖项，以便使用Spark和Spark Streaming的API。例如，您可以添加以下依赖项到您的Maven项目中：...

数据库

9查看

0评论
软件测试设备有哪些 2024-01-23 spark 大数据分布式

大数据分布式 Spark连接快速入门

文章最前：我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我...

数据库

8查看

0评论
软件开发平台 2024-01-23 spark 大数据

大数据 Spark 2.0.2 环境安装教程

0. 前置环境linux VMWare上搭建Centos7并配置网络用FinalShell连接（详细图文教程） hadoop Centos7上搭建hadoop2.6.5详细图文教程1. 安装scala环境Master节点将...

后端

8查看

0评论
软件开发流程八个步骤 2024-01-23 spark 大数据面试

【大数据面试知识点】Spark的DAGScheduler

Spark数据本地化是在哪个阶段计算首选位置的？先看一下DAGScheduler的注释，可以看到DAGScheduler除了Stage和Task的划分外，还做了缓存的跟踪和首选运行位置的计算。DAGScheduler注释： ...

数据库

8查看

0评论
梦八队数据统计 2024-01-22 spark kafka 大数据

大数据 Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard说明一、案例介绍二、实验环境准备1、实验系统和软件要求2、系统和软件的安装（1）安装Spark（2）安装Kafka（3）安装Python（4）安装Python依赖库（5）安...

后端

9查看

0评论
新手怎么做自媒体 2024-01-22 spark 大数据分布式

大数据分布式 [Spark] 读取项目下resources/的文件

背景这个spark程序要读取项目下的一些文件, 当我把这个项目打成jar包后, spark-submit到集群后执行将文件作为资源文件打包到 JAR 中可以通过 Maven 或 sbt 这样的构建工具完成。以下是使用 Ma...

数据库

8查看

0评论
软件开发分为哪几类 2024-01-22 spark 大数据分布式

大数据分布式深入理解 Spark（四）Spark 内存管理模型

Spark 中的内存管理和资源管理模型Executor 进程作为一个 JVM 进程，其内存管理建立在 JVM 的内存管理之上，整个大致包含两种方式：堆内内存和堆外内存。一个 Executor 当中的所有 Task 是共享...

数据库

7查看

0评论
全国技术人员资格考试技术平台 2024-01-22 spark 大数据分布式

大数据分布式 [spark] RDD, DataFrame和DataSet是什么?如何相互转化

文章目录是什么如何转化是什么在 Apache Spark 中，RDD（Resilient Distributed Dataset）、DataFrame 和 Dataset 是三个不同的数据抽象层，各自有不同的特点和用途。RD...

数据库

7查看

0评论
Python数据分析工具 2024-01-22 大数据 spark 分布式

分布式 Spark邂逅大数据

系列文章目录送书第一期《用户画像：平台构建与业务实践》送书活动之抽奖工具的打造《获取博客评论用户抽取幸运中奖者》送书第二期《Spring Cloud Alibaba核心技术与实战案例》送书第三期《深入浅出J...

数据库

7查看

0评论
运维平台 2024-01-22 kafka kubernetes spark

如何用Kafka, Cassandra, Kubernetes, Spark 搭建一套系统？

Kafka、Cassandra、Kubernetes和Spark都是用于构建分布式系统的流行技术。下面是它们各自的职责以及如何将它们组合在一起搭建一套系统的简要说明：1、Kafka（消息队列）： Kafka是一个高吞吐量、可...

后端

7查看

0评论
大数据技术主要学什么 2024-01-22 spark 大数据分布式

大数据分布式 Hudi第二章：集成Spark

系列文章目录Hudi第一章：编译安装 Hudi第二章：集成Spark文章目录系列文章目录前言一、安装Spark1、安装Spark2.安装hive二、spark-shell1.启动命令2.插入数据3.查询数据1.转换DF2.查...

数据库

9查看

0评论
数据结构期末考试题 2024-01-22 spark 学习 ajax

ajax spark初步学习

1.1 下载数据集在此，我们将使用National Health and Nutrition Health Survey数据集。图3-1 National Health and Nutrition Health Survey...

数据库

8查看

0评论
计算机java 2024-01-22 spark 大数据分布式

大数据分布式结合案例详细说明Spark的部分调优手段

当谈到优化 Apache Spark 应用程序时，有一些更加详细和具体的优化策略和技术，可以帮助提高性能并最大化集群资源利用。以下是更详细的 Spark 调优方法：资源配置与管理：内存调优：合理设置 Executor 和 D...

数据库

8查看

0评论
python怎么编写程序 2024-01-22 scala spark 开发语言

spark 开发语言 Scala

目录1.scala字符串操作1.1 字符的操作1.2 从控制台读取输入并输出1.3 从文件读取并输出字符串1.4 将数据写入文件1.5 判断字符串是否为空Scala数据类型1.1 整型分类1.2 类型转换函数式编程1.1...

后端

8查看

0评论
scratch中文网站 2024-01-22 spark Java scala

scala 使用Java编写Spark Streaming来做大数据处理（六）

从WordCount中学习flatMap和flatMapToPair一、flatMapflatMap和flatMapToPair都是对数据拆分，重组为一个数组。(1 学习致谢 https://blog.csdn.net/we...

后端

9查看

0评论
自媒体和新媒体的区别 2024-01-22 spark 大数据 scala

大数据 scala spark源码-任务提交流程之-1-sparkSubmit

1.spark-cluster任务提交流程图2.sparkSubmit源码2.1.main2.1.1.SparkSubmitArguments spark提交参数类2.2.SparkSubmit.doSubmit方法2.3....

后端

8查看

0评论
编程怎么做 2024-01-20 scala 学习 spark

spark Scala学习(一)

文章目录1.什么是Scala1.1 为什么要学习Scala？1.2 Scala特点2.伴生类和伴生对象2.1 用Scala写一个HelloWorld程序scala文件在编译后会生成.class字节码文件，因为scala是通过...

后端

8查看

0评论
开发者是什么意思 2024-01-20 spark intellij-idea scala

intellij-idea scala spark快速入门

spark快速入门(只是能跑准备工作hadoop本地和Scala配入环境变量在idea中添加Scala插件- 开始创建项目新建一个空项目 -要自己建立一个文件夹，选择那个文件夹作为项目文件夹（工作区） - 创建...

后端

8查看

0评论
音视频开发 2024-01-20 spark scala maven

maven 大数据 intellij-idea Spark with Scala

从磁盘（File）中创建RDD - textFile查看RDD内容myRDD.take(n .foreach(println //取n个RDD内容操作//去重//转换dataframeDataFrame内容操作Spark...

后端

7查看

0评论
构架与架构 2024-01-19 大数据 hadoop spark

大数据毕业设计选题推荐-自媒体舆情分析平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑...

数据库

9查看

0评论
实用阶梯英语语法教程第三版 2024-01-19 spark 大数据 scala

大数据 scala 分布式 Spark源码-spark算子-2-shuffle类算子

RDD shuffle类算子1.概述2.去重算子2.1.distinct3.聚合算子3.1.复用性函数3.1.1.默认分区器3.1.1.combineByKeyWithClassTag4.排序算子4.1.sortByKey4...

后端

8查看

0评论
新媒体技术对社会的影响 2024-01-19 scala 开发语言 spark

scala 开发语言 spark编程基础

目录0-a.注释0-b.多行输入一、Scala语言基础（第二章）1.print与println的区别及val与var的区别，println会默认加入一个换行符。2.if语句3.for嵌套循环4.yield使用例子（for循环...

后端

8查看

0评论
人工智能技术介绍 2024-01-19 spark scala 大数据

scala 大数据 spark decimal(38,18)超出38限制的思考

总结一下 Java/Scala中的scala.math.BigDecimalscala.math.BigIntjava.math.BigDecimaljava.math.BigInteger Python中的intdecim...

后端

7查看

0评论
张雪峰谈软件工程技术专业 2024-01-19 spark 大数据 scala

大数据 scala 基于Spark3.3.0的doris-spark-connector实战

基于Spark3.3.0的doris-spark-connector实战想要更全面了解Spark内核和应用实战，可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊）1. doris-spark-connecto...

后端

8查看

0评论
python病毒代码大全 2024-01-19 hbase-spark hbase spark

hbase-spark HBase&Spark集成 -- DataFrame

HBase&Spark集成 – DataFrame Apache HBase 是一个成熟的 NoSQL 存储系统，已在大规模生产部署中得到证明。尽管 HBase 是一个键值存储，但对于像 SQL 一样更轻松地访问数据的需求...

数据库

9查看

0评论
简单编程小游戏 2024-01-17 spark hadoop 数据分析

django python 基于spark+hadoop大数据分析的电影推荐系统

精彩专栏推荐订阅：在下方专栏作者主页：计算机毕设老哥 Java实战项目专栏Python实战项目专栏安卓实战项目专栏微信小程序实战项目专栏文章目录Java实战项目专栏Python实战项目专栏安卓实战项...

数据库

8查看

0评论

1 2 3 4 5 6 7 8 9 10 11 12 1314 15 16 17 18 19 20 21