spark 任务提交和部署

IDEA的maven开发环境

正常新建一个maven项目即可,可以选择maven 的quick-start模式

然后maven需要配置一个spark-core,还有一个maven打包scala的插件

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

4.0.0

org.example

xcewkk

1.0-SNAPSHOT

jar

xcewkk

http://maven.apache.org

UTF-8

junit

junit

3.8.1

test

org.apache.spark

spark-core_2.11

2.3.0

org.apache.maven.plugins

maven-compiler-plugin

3.2

1.8

1.8

UTF-8

net.alchim31.maven

scala-maven-plugin

3.2.0

compile

testCompile

-dependencyfile

${project.build.directory}/.scala_dependencies

scala插件

首先去IDEA插件市场安scala插件,重启IDE

IDE项目结构

项目结构全局库中添加scala SDK或者下载也可以

项目设置 库 里添加scala。

Scala代码编写

package test

import org.apache.spark.{SparkConf, SparkContext}

/**

* @author:xuanchenwei

* @create: 2022-11-01 14:53

* @Description:

*/

object SimpleApp {

def main(args: Array[String]) {

val logFile = "/xcw/README.md" // Should be some file on your system

val conf = new SparkConf().setAppName("Simple Application").setMaster("local")

val sc = new SparkContext(conf)

val logData = sc.textFile(logFile, 2).cache()

val numAs = logData.filter(line => line.contains("a")).count()

val numBs = logData.filter(line => line.contains("b")).count()

println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))

}

}

scala里类是object

地址默认是hdfs的地址,所以需要提前在hdfs中准备文件。

conf中master参数报错会说让你写master的url。实际是写spark的运行模式,比如cluster和standalone

scala打包

一定要确保安了scala的打包插件,不然提交的jar包会报错找不到类。(即使包名.类名没问题)

先在maven的控制台点clean,然后package。打包的文件在文件树的target文件夹。该jar包上传到linux即可

spark-commit

./spark-submit --class test.SimpleApp --master local:7077 /data/xcw/xcewkk-1.0-SNAPSHOT.jar

不管是scala还是java写的jar包最终都用该指令提交,pyspark用pyspark的submmit。

master表示master主机选项,local表示本地单机模式(local是本地单机,stadalone是集群中单节点,cluster是集群模式),7077是任务提交的端口。

class参数是放jar包的地方,需要包名+类名

最后的地址是指jar包位置

相关链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: