spark Scala开发环境部署以及jar包提交运行

spark 任务提交和部署

IDEA的maven开发环境

正常新建一个maven项目即可，可以选择maven 的quick-start模式

然后maven需要配置一个spark-core，还有一个maven打包scala的插件

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

4.0.0

org.example

xcewkk

1.0-SNAPSHOT

jar

xcewkk

http://maven.apache.org

UTF-8

junit

3.8.1

test

org.apache.spark

spark-core_2.11

2.3.0

org.apache.maven.plugins

maven-compiler-plugin

3.2

1.8

UTF-8

net.alchim31.maven

scala-maven-plugin

3.2.0

compile

testCompile

-dependencyfile

${project.build.directory}/.scala_dependencies

scala插件

首先去IDEA插件市场安scala插件，重启IDE

IDE项目结构

项目结构全局库中添加scala SDK或者下载也可以

项目设置库里添加scala。

Scala代码编写

package test

import org.apache.spark.{SparkConf, SparkContext}

/**

* @author:xuanchenwei

* @create: 2022-11-01 14:53

* @Description:

object SimpleApp {

def main(args: Array[String]) {

val logFile = "/xcw/README.md" // Should be some file on your system

val conf = new SparkConf().setAppName("Simple Application").setMaster("local")

val sc = new SparkContext(conf)

val logData = sc.textFile(logFile, 2).cache()

val numAs = logData.filter(line => line.contains("a")).count()

val numBs = logData.filter(line => line.contains("b")).count()

println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))

}

scala里类是object

地址默认是hdfs的地址，所以需要提前在hdfs中准备文件。

conf中master参数报错会说让你写master的url。实际是写spark的运行模式，比如cluster和standalone

scala打包

一定要确保安了scala的打包插件，不然提交的jar包会报错找不到类。（即使包名.类名没问题）

先在maven的控制台点clean，然后package。打包的文件在文件树的target文件夹。该jar包上传到linux即可

spark-commit

./spark-submit --class test.SimpleApp --master local:7077 /data/xcw/xcewkk-1.0-SNAPSHOT.jar

不管是scala还是java写的jar包最终都用该指令提交，pyspark用pyspark的submmit。

master表示master主机选项，local表示本地单机模式（local是本地单机，stadalone是集群中单节点，cluster是集群模式），7077是任务提交的端口。

class参数是放jar包的地方，需要包名＋类名

最后的地址是指jar包位置

大家都在看：

scala 大数据如何将spark程序打jar包并上传至本地集群环境运行

配置spark在本地上运行 1、配置本地环境（我的本地系统为win10）（1）在官网下载spark安装包：spark-3.0.0-bin-hadoop3.2.tgz，下载页面见下图：（2）解压sp...

intellij-idea 如何在IDEA IDE 开发环境中直接以 Yarn 方式提交Spark 代码到远端 Yarn集群运行

文章目录概要整体架构技术细节概要一般Spark 代码开发提交方式的痛点：（1）IDEA IDE 本机运行： setMaster(local[]) : 痛点：这种方式本地JVM中模拟方式，本地负载...

linux python 使用docker-compose.yml快速搭建开发、部署环境（nginx、tomcat、mysql、jar包、各种程序）以及多容器通信和统一配置

目录docker-compose语法（更多说明可查看下面代码）imagehostnamecontainer_namevolumesnetworksyml文件的使用启动停止开发环境（这里以python为...

scala 开发语言 hadoop 大数据 spark入门案例以及sbt安装与打包（Linux环境）

创作初衷：由于在这上面翻过太多的烂文章（博主自己都没搞懂就“写作抄袭”），才写下此文(已从重装系统做过3次测试，没有问题才下笔)，文章属于保姆级别。~~~~~~~~~~~~~~~~~~~~~~~~~创...

uni-app uniapp H5、小程序、APP端自定义不同运行环境（开发、测试、生产）、自定义条件编译平台、以及动态修改manifest.json值讲解

文章目录前言一、自定义条件编译平台是什么？二、新增自定义条件编译平台三、动态设置服务器请求地址四、动态修改manifest.json1.根目录新增文件 modifyManifest.js2.vue...

开发语言创建和激活python虚拟环境(venv), 以及在vscode上运行python虚拟环境

最近使用python做项目，发现佬们都是在用python的虚拟环境来放项目。发现确实有一些优势在这之中，首先就是隔离性，我们将每个项目放入相对应的环境配置，可以有效避免乱七八糟的库出现在解释器中。其次...

大数据 Spark——Windows本地运行环境部署

四种环境配置一、jdk环境配置链接: https://www.oracle.com/java/technologies/javase-jdk8-downloads.html 说明:这里下载了jd...

scala big data Spark提交任务运行报错：Unregistering ApplicationMaster...Promise already completed.

报错日志：报错原因：一个application 应该只能有一个SparkSession对象或者SparkConext对象。可以将spark或sc在主函数中创建，然后再以参数的形式传递。 //...

fpga开发 Chisel入门——在windows下vscode搭建|部署Scala2.13.3开发环境|用Chisel点亮FPGA小灯等实验

文章目录前言Chisel介绍一、vscode搭建scala开发环境1.1 安装Scala官方插件1.2 创建hello_world.scala文件1.3 确认java的版本(博主使用的是1.8)1.4...

intellij-idea java 大数据在IDEA运行spark程序（搭建Spark开发环境）

建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境，以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习，在window系统上...

大数据 java Python开发Spark步骤以及如何提交Spark应用，PythonOnSpark原理

1.Python开发Spark程序步骤主要是获取SparkContext对象，基于SparkContext对象作为执行环境入口2.如何提交Spark应用将程序代码上传到服务器上，通过spark-sub...

大数据分布式学习了解Spark和Scala的理论知识以及安装部署

一.什么是SparkSpark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，20...

大数据测试：构建Hadoop和Spark分布式HA运行环境！，大数据开发开发者跳槽面试

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集...

开发语言大数据 spark Scala第三章节(运算符、算术, 赋值, 关系, 逻辑运算符、交换变量案例以及位运算符的用法)

Scala第三章节章节目标理解运算符的相关概述掌握算术, 赋值, 关系, 逻辑运算符的用法掌握交换变量案例理解位运算符的用法1. 算术运算符1.1 运算符简介用来拼接变量或者常量的符号就叫: 运算符,...

大数据开发语言 spark Scala第十八章节(Iterable集合、Seq集合、Set集合、Map集合以及统计字符个数案例)

Scala第十八章节章节目标掌握Iterable集合相关内容.掌握Seq集合相关内容.掌握Set集合相关内容.掌握Map集合相关内容.掌握统计字符个数案例.1.1 概述Iterable代表一个可以迭代...

金钥匙

spark Scala开发环境部署以及jar包提交运行

java 开发语言 Scala知识点总结大全40

elasticsearch scala linux 网络运维统信UOS服务器上编译安装httpd服务

发表评论取消回复

金钥匙

spark Scala开发环境部署以及jar包提交运行

java 开发语言 Scala知识点总结大全40

elasticsearch scala linux 网络 运维 统信UOS服务器上编译安装httpd服务

相关文章

发表评论取消回复

elasticsearch scala linux 网络运维统信UOS服务器上编译安装httpd服务