大数据 Spark三：Spark SQL

嵌入式开发和单片机开发的区别数据库 2024-03-27 7 0

Spark SQL

数据的分析方式、数据分类和SparkSQL适用场景、数据抽象（DataFrame, DataSet, RDD），SparkSQL读取数据和处理数据的两种风格：SQL风格和DSL风格学习链接 https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ

一、数据分析方式

1.1 命令式

通过一个算子，得到一个结果，通过结果在进行后续计算

sc.textFile("...")

.flatMap(_.split(" "))

.map((_, 1))

.reduceByKey(_ + _)

.collect()

优缺点

优点：

操作粒度细，能控制数据的每一个处理环节操作明确，步骤清晰，容易维护支持半/非结构化数据操作

缺点：

需要代码能力、写起来麻烦

1.2 SQL

SQL on Hadoop

select name, id, class

from students

where age > 10

优缺点

优点：

表达清晰

缺点

使用机器学习算法麻烦

二、SparkSQL

2.1 发展历史

2.2 Hive和SparkSQL

Hive是将SQL转为MapReduce SparkSQL是将SQL解析为：“RDD+优化”再执行

三、数据分类和SparkSQL适用场景

3.1 结构化数据

指数据由固定的Schema（约束），例如在用户表中，name字段为String，name每一条数据的name字段值都可以当做String来使用。

3.2 半结构化数据

指数据没有固定的Schema，但是数据本身是有结构的

3.2.1 没有固定的Schema

指的是半结构化数据是没有固定的 Schema 的，可以理解为没有显式指定 Schema。

比如说一个用户信息的 JSON 文件，第 1 条数据的 phone_num 有可能是数字，第 2 条数据的 phone_num 虽说应该也是数字，但是如果指定为 String，也是可以的，因为没有指定 Schema，没有显式的强制的约束。

3.2.2 有结构

虽说半结构化数据是没有显式指定 Schema 的，也没有约束，但是半结构化数据本身是有有隐式的结构的，也就是数据自身可以描述自身。

例如 JSON 文件，其中的某一条数据是有字段这个概念的，每个字段也有类型的概念，所以说 JSON 是可以描述自身的，也就是数据本身携带有元信息。

数据类型定义特点举例结构化数据有固定的 Schema有预定义的 Schema关系型数据库的表半结构化数据没有固定的 Schema，但是有结构没有固定的 Schema，有结构信息，数据一般是自描述的指一些有结构的文件格式，例如 JSON非结构化数据没有固定 Schema，也没有结构没有固定 Schema，也没有结构指图片/音频之类的格式

3.3 Spark处理数据类型

RDD主要用于处理非结构化数据、半结构化数据、结构化 SparkSQL主要处理结构化数据（较为规范的半结构化数据也可以处理）

四、SparkSQL数据抽象

4.1 DataFrame/Dataset

4.1.1 DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库的二维表格，带有 Schema 元信息(可以理解为数据库的列名和类型)。

4.1.2 Dataset

与RDD相比，Dataset保存了更多描述信息，概念上等同于关系型数据库中的二维表。与DataFrame相比，保存了类型信息，是强类型的，提供了编译时类型检查。调用 Dataset 的方法先会生成逻辑计划，然后被 spark 的优化器进行优化，最终生成物理计划，然后提交到集群中运行！ DataSet包含了DataFrame的功能。在Spark2.0中，DataFrame表示为DataSet[ROW]，即DataSet的子集。

4.1.3 RDD、DataFrame、DataSet的区别

RDD[Person]：以Person为类型参数，但不了解其内部结构DataFrame：提供了详细的结构信息 schema 列的名称和类型。这样看起来就像一张表了。DataSet[Person]：不光有 schema 信息，还有类型信息。

4.1.4 以图解为例

RDD[Person] DataFrame DataFrame = RDD[Person] - 泛型 + Schema + SQL操作 + 优化 Dataset Dataset[Person] = DataFrame + 泛型

五、Spark SQL应用

Spark2.0 SparkSession 封装了 SqlContext 及 HiveContext；实现了 SQLContext 及 HiveContext 所有功能；通过 SparkSession 还可以获取到 SparkConetxt。

5.1 创建DataFrame/Dataset

5.1.1 读取文本文件：

本地有数据文件

创建SparkSession

定义case class（相当于表的schema）

将RDD和case class关联

将RDD转换成DataFrame

查看数据和schema

注册表

执行QL

5.1.2 读取json文件：

读取之后可以使用DataFrame的函数操作

val jsonDF= spark.read.json("file:///resources/people.json")

jsonDF.show

注意：直接读取 json 文件有 schema 信息，因为 json 文件本身含有 Schema 信息，SparkSQL 可以自动解析。

5.1.3 读取parquet文件

val parquetDF=spark.read.parquet("file:///resources/users.parquet")

parquetDF.show

注意：直接读取 parquet 文件有 schema 信息，因为 parquet 文件中保存了列的信息。

5.2 两种查询风格：DSL和SQL

假设有一份数据

val lineRDD= sc.textFile("hdfs://node1:8020/person.txt").map(_.split(" "))

case class Person(id:Int, name:String, age:Int)

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

val personDF = personRDD.toDF

personDF.show

5.2.1 DSL风格

查看name字段数据 personDF.select("name").show查看name和age字段 personDF.select("name", "age").show查看name和age字段，并将age+1 personDF.select(col("name"), col("age") + 1).show personDF.select($"name",$"age",$"age"+1).show过滤age大于等于25的数据 personDF.filter($"age" >25).show按年龄进行分组并统计相同年龄的人数 personDF.groupBy("age").count().show

5.2.2 SQL风格：

可以通过在程序中使用 spark.sql() 来执行 SQL 查询，结果将作为一个 DataFrame 返回。如果想使用 SQL 风格的语法，需要将 DataFrame 注册成表,采用如下的方式： personDF.createOrReplaceTempView("t_person") spark.sql("select * from t_person").show

显示表的描述信息 spark.sql("desc t_person").show查询年龄最大的前两名 spark.sql("select * from t_person order by age desc limit 2").show查询年龄大于30的人的信息 spark.sql("select * from t_person where age>30").show

5.2.3 总结：

DataFrame和DataSet都可以通过RDD来创建也可以通过读取普通文本创建——需要通过RDD+Schema约束通过json/parquet会有完整的约束不管是DataFrame还是DataSet都可以注册成标，之后可以使用SQL和DSL。

5.3 Spark SQL WordCount举例

package com.example

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object WordCount {

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()

val sc = spark.sparkContext

sc.setLogLevel("WARN")

import spark.implicits._

val filePath = "D:\\workshop\\code\\my-test-maven\\src\\main\\scala\\com\\example\\test.txt"

val fileDF: DataFrame = spark.read.text(filePath)

val fileDS: Dataset[String] = spark.read.textFile(filePath)

// 都能打印出来

fileDF.show()

fileDS.show()

// val words = fileDF.flatMap(_.split(" ")) //注意:报错,因为DF没有泛型,不知道_是String

val wordDS = fileDS.flatMap(_.split(" ")) //注意:正确,因为DS有泛型,知道_是String

wordDS.groupBy("value").count().orderBy($"count".desc).show()

sc.stop()

spark.stop()

}

5.4 Spark SQL多数据源交互

5.4.1 读取数据：

读取json文件 spark.read.json("D:\\data\\output\\json").show()读取csv文件 spark.read.csv("D:\\data\\output\\csv").toDF("id","name","age").show()读取parquet文件 spark.read.parquet("D:\\data\\output\\parquet").show()读取mysql表：

val prop = new Properties()

prop.setProperty("user","root")

prop.setProperty("password","root")

spark.read.jdbc(

"jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8","person",prop).show()

5.4.2 写数据

写入json文件 personDF.write.json("D:\\data\\output\\json")写入csv文件 personDF.write.csv("D:\\data\\output\\csv")写入parquet文件 personDF.write.parquet("D:\\data\\output\\parquet")写入mysql表

文章来源

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

spark sql 大数据

本文由用户于 2024-03-27 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18690617.html

金钥匙

大数据 Spark三：Spark SQL

大数据 Spark回归分析与特征工程

人工智能机器学习计算机视觉 pytorch 深度学习最全面试题总结（一）

发表评论取消回复

金钥匙

大数据 Spark三：Spark SQL

大数据 Spark回归分析与特征工程

人工智能 机器学习 计算机视觉 pytorch 深度学习最全面试题总结（一）

相关文章

发表评论取消回复

人工智能机器学习计算机视觉 pytorch 深度学习最全面试题总结（一）