数据仓库 lceberg 数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

文章目录

简介概述作用特性数据存储、计算引擎插件化实时流批一体数据表演化（Table Evolution）模式演化（Schema Evolution）分区演化（Partition Evolution）列顺序演化（Sort Order Evolution）隐藏分区（Hidden Partition）镜像数据查询（Time Travel）支持事务（ACID）基于乐观锁的并发支持文件级数据剪裁

其他数据湖框架的对比

存储结构数据文件 data files表快照 Snapshot清单列表 Manifest list清单文件 Manifest file

与 Hive集成环境准备创建和管理 Catalog默认使用 HiveCatalog指定 Catalog 类型指定路径加载

基本操作创建表修改表插入表删除表

与 Spark SQL集成环境准备Spark 配置 CatalogHive CatalogHadoop Catalog

SQL 操作创建表删除表修改表插入数据查询数据存储过程

DataFrame 操作环境准备读取表检查表写入表维护表

与 Flink SQL 集成环境准备创建和使用 Catalog语法说明Hive CatalogHadoop Catalog配置sql-client初始化文件

DDL 语句创建数据库创建表修改表删除表

插入语句INSERT INTOINSERT OVERWRITEUPSERT

查询语句Batch模式Streaming模式

与Flink集成的不足

与 Flink DataStream 集成环境准备读取数据常规Source写法FLIP-27 Source写法

写入数据合并小文件

简介

概述

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。

Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Format）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark…）之下，数据文件之上。

作用

大数据领域发展至今已经经历了相当长时间的发展和探索，虽然大数据技术的出现和迭代降低了用户处理海量数据的门槛，但是有一个问题不能忽视，数据格式对不同引擎适配的对接。

也就是说我们在使用不同的引擎进行计算时，需要将数据根据引擎进行适配。这是相当棘手的问题。

为此出现了一种新的解决方案：介于上层计算引擎和底层存储格式之间的一个中间层。这个中间层不是数据存储的方式，只是定义了数据的元数据组织方式，并且向引擎层面提供统一的类似传统数据库中"表"的语义。它的底层仍然是Parquet、ORC等存储格式。基于此，Netflix开发了Iceberg，目前已经是Apache的顶级项目。

特性

数据存储、计算引擎插件化

Iceberg提供一个开放通用的表格式（Table Format）实现方案，不和特定的数据存储、计算引擎绑定。目前大数据领域的常见数据存储（HDFS、S3…），计算引擎（Flink、Spark…）都可以接入Iceberg。

在生产环境中，可选择不同的组件搭使用。甚至可以不通过计算引擎，直接读取存在文件系统上的数据。

实时流批一体

Iceberg上游组件将数据写入完成后，下游组件及时可读，可查询。可以满足实时场景。并且Iceberg同时提供了流/批读接口、流/批写接口。可以在同一个流程里, 同时处理流数据和批数据，大大简化了ETL链路。

数据表演化（Table Evolution）

Iceberg可以通过SQL的方式进行表级别模式演进。进行这些操作的时候，代价极低。不存在读出数据重新写入或者迁移数据这种费时费力的操作。

比如在常用的Hive中，如果我们需要把一个按天分区的表，改成按小时分区。此时，不能再原表之上直接修改，只能新建一个按小时分区的表，然后再把数据Insert到新的小时分区表。而且，即使我们通过Rename的命令把新表的名字改为原表，使用原表的上次层应用, 也可能由于分区字段修改，导致需要修改 SQL，这样花费的经历是非常繁琐的。

模式演化（Schema Evolution）

Iceberg支持下面几种模式演化：

ADD：向表或者嵌套结构增加新列 Drop：从表中或者嵌套结构中移除一列 Rename：重命名表中或者嵌套结构中的一列 Update：将复杂结构(struct, map, list)中的基本类型扩展类型长度, 比如tinyint修改成int. Reorder：改变列或者嵌套结构中字段的排列顺序

Iceberg保证模式演化（Schema Evolution）是没有副作用的独立操作流程, 一个元数据操作, 不会涉及到重写数据文件的过程。具体的如下:

增加列时候，不会从另外一个列中读取已存在的的数据删除列或者嵌套结构中字段的时候，不会改变任何其他列的值更新列或者嵌套结构中字段的时候，不会改变任何其他列的值改变列列或者嵌套结构中字段顺序的时候，不会改变相关联的值

在表中Iceberg 使用唯一ID来定位每一列的信息。新增一个列的时候,会新分配给它一个唯一ID, 并且绝对不会使用已经被使用的ID。

使用名称或者位置信息来定位列的, 都会存在一些问题, 比如使用名称的话,名称可能会重复, 使用位置的话, 不能修改顺序并且废弃的字段也不能删除。

分区演化（Partition Evolution）

Iceberg可以在一个已存在的表上直接修改，因为Iceberg的查询流程并不和分区信息直接关联。

当我们改变一个表的分区策略时，对应修改分区之前的数据不会改变, 依然会采用老的分区策略，新的数据会采用新的分区策略，也就是说同一个表会有两种分区策略，旧数据采用旧分区策略，新数据采用新新分区策略, 在元数据里两个分区策略相互独立，不重合。

在查询数据的时候，如果存在跨分区策略的情况，则会解析成两个不同执行计划，如Iceberg官网提供图所示：

图中booking_table表2008年按月分区，进入2009年后改为按天分区，这种中分区策略共存于该表中。

借助Iceberg的隐藏分区（Hidden Partition），在写SQL 查询的时候，不需要在SQL中特别指定分区过滤条件，Iceberg会自动分区，过滤掉不需要的数据。

Iceberg分区演化操作同样是一个元数据操作, 不会重写数据文件。

列顺序演化（Sort Order Evolution）

Iceberg可以在一个已经存在的表上修改排序策略。修改了排序策略之后, 旧数据依旧采用老排序策略不变。往Iceberg里写数据的计算引擎总是会选择最新的排序策略, 但是当排序的代价极其高昂的时候, 就不进行排序了。

隐藏分区（Hidden Partition）

Iceberg的分区信息并不需要人工维护, 它可以被隐藏起来. 不同其他类似Hive 的分区策略, Iceberg的分区字段/策略（通过某一个字段计算出来），可以不是表的字段和表数据存储目录也没有关系。在建表或者修改分区策略之后，新的数据会自动计算所属于的分区。在查询的时候同样不用关系表的分区是什么字段/策略，只需要关注业务逻辑，Iceberg会自动过滤不需要的分区数据。

正是由于Iceberg的分区信息和表数据存储目录是独立的，使得Iceberg的表分区可以被修改,而且不和涉及到数据迁移。

镜像数据查询（Time Travel）

Iceberg提供了查询表历史某一时间点数据镜像（snapshot）的能力。通过该特性可以将最新的SQL逻辑，应用到历史数据上。

支持事务（ACID）

Iceberg通过提供事务（ACID）的机制，使其具备了upsert的能力并且使得边写边读成为可能，从而数据可以更快的被下游组件消费。通过事务保证了下游组件只能消费已commit的数据，而不会读到部分甚至未提交的数据。

基于乐观锁的并发支持

Iceberg基于乐观锁提供了多个程序并发写入的能力并且保证数据线性一致。

文件级数据剪裁

Iceberg的元数据里面提供了每个数据文件的一些统计信息，比如最大值，最小值，Count计数等等。因此，查询SQL的过滤条件除了常规的分区，列过滤，甚至可以下推到文件级别，大大加快了查询效率。

其他数据湖框架的对比

存储结构

数据文件 data files

数据文件是Apache Iceberg表真实存储数据的文件，一般是在表的数据存储目录的data目录下，如果我们的文件格式选择的是parquet,那么文件是以“.parquet”结尾。

例如：00000-0-atguigu_20230203160458_22ee74c9-643f-4b27-8fc1-9cbd5f64dad4-job_1675409881387_0007-00001.parquet 就是一个数据文件。

Iceberg每次更新会产生多个数据文件（data files）。

表快照 Snapshot

快照代表一张表在某个时刻的状态。每个快照里面会列出表在某个时刻的所有 data files 列表。data files是存储在不同的manifest files里面，manifest files是存储在一个Manifest list文件里面，而一个Manifest list文件代表一个快照。

清单列表 Manifest list

manifest list是一个元数据文件，它列出构建表快照（Snapshot）的清单（Manifest file）。这个元数据文件中存储的是Manifest file列表，每个Manifest file占据一行。每行中存储了Manifest file的路径、其存储的数据文件（data files）的分区范围，增加了几个数文件、删除了几个数据文件等信息，这些信息可以用来在查询时提供过滤，加快速度。

例如：snap-6746266566064388720-1-52f2f477-2585-4e69-be42-bbad9a46ed17.avro就是一个Manifest List文件。

清单文件 Manifest file

Manifest file也是一个元数据文件，它列出组成快照（snapshot）的数据文件（data files）的列表信息。每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息（比如每列的最大最小值、空值数等）、文件的大小以及文件里面数据行数等信息。其中列级别的统计信息可以在扫描表数据时过滤掉不必要的文件。

Manifest file是以avro格式进行存储的，以“.avro”后缀结尾，例如：52f2f477-2585-4e69-be42-bbad9a46ed17-m0.avro。

与 Hive集成

环境准备

（1）Hive与Iceberg的版本对应关系如下

Hive 版本官方推荐Hive版本Iceberg 版本2.x2.3.80.8.0-incubating – 1.1.03.x3.1.20.10.0 – 1.1.0

Iceberg与Hive 2和Hive 3.1.2/3的集成，支持以下特性：

创建表删除表读取表插入表（INSERT into）

更多功能需要Hive 4.x（目前alpha版本）才能支持。

（2）上传jar包，拷贝到Hive的auxlib目录中

mkdir auxlib

cp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlib

cp libfb303-0.9.3.jar /opt/module/hive/auxlibcp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlibcp libfb303-0.9.3.jar /opt/module/hive/auxlib

（3）修改hive-site.xml，添加配置项

iceberg.engine.hive.enabled

true

hive.aux.jars.path

/opt/module/hive/auxlib

使用TEZ引擎注意事项：

使用Hive版本>=3.1.2，需要TEZ版本>=0.10.1 指定tez更新配置：

tez.mrreader.config.update.properties

hive.io.file.readcolumn.names,hive.io.file.readcolumn.ids

从Iceberg 0.11.0开始，如果Hive使用Tez引擎，需要关闭向量化执行：

hive.vectorized.execution.enabled

false

（4）启动HMS服务

（5）启动 Hadoop

创建和管理 Catalog

Iceberg支持多种不同的Catalog类型，例如:Hive、Hadoop、亚马逊的AWS Glue和自定义Catalog。

根据不同配置，分为三种情况：

没有设置iceberg.catalog，默认使用HiveCatalog

配置项说明iceberg.catalog..typeCatalog的类型: hive, hadoop, 如果使用自定义Catalog，则不设置iceberg.catalog..catalog-implCatalog的实现类, 如果上面的type没有设置，则此参数必须设置iceberg.catalog..Catalog的其他配置项

设置了 iceberg.catalog的类型，使用指定的Catalog类型，如下表格：设置 iceberg.catalog=location_based_table，直接通过指定的根路径来加载Iceberg表

默认使用 HiveCatalog

CREATE TABLE iceberg_test1 (i int) STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

INSERT INTO iceberg_test1 values(1);

查看HDFS可以发现，表目录在默认的hive仓库路径下。

指定 Catalog 类型

（1）使用 HiveCatalog

set iceberg.catalog.iceberg_hive.type=hive;

set iceberg.catalog.iceberg_hive.uri=thrift://hadoop1:9083;

set iceberg.catalog.iceberg_hive.clients=10;

set iceberg.catalog.iceberg_hive.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hive;

CREATE TABLE iceberg_test2 (i int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'

TBLPROPERTIES('iceberg.catalog'='iceberg_hive');

INSERT INTO iceberg_test2 values(1);

（2）使用 HadoopCatalog

set iceberg.catalog.iceberg_hadoop.type=hadoop;

set iceberg.catalog.iceberg_hadoop.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hadoop;

CREATE TABLE iceberg_test3 (i int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'

LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'

TBLPROPERTIES('iceberg.catalog'='iceberg_hadoop');

INSERT INTO iceberg_test3 values(1);

指定路径加载

如果HDFS中已经存在iceberg格式表，我们可以通过在Hive中创建Icerberg格式表指定对应的location路径映射数据。

CREATE EXTERNAL TABLE iceberg_test4 (i int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'

LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'

TBLPROPERTIES ('iceberg.catalog'='location_based_table');

基本操作

创建表

（1）创建外部表

CREATE EXTERNAL TABLE iceberg_create1 (i int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create1;

（2）创建内部表

CREATE TABLE iceberg_create2 (i int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create2;

（3）创建分区表

CREATE EXTERNAL TABLE iceberg_create3 (id int,name string)

PARTITIONED BY (age int)

STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create3;

Hive语法创建分区表，不会在HMS中创建分区，而是将分区数据转换为Iceberg标识分区。这种情况下不能使用Iceberg的分区转换，例如：days(timestamp)，如果想要使用Iceberg格式表的分区转换标识分区，需要使用Spark或者Flink引擎创建表。

修改表

只支持HiveCatalog表修改表属性，Iceberg表属性和Hive表属性存储在HMS中是同步的。

ALTER TABLE iceberg_create1 SET TBLPROPERTIES('external.table.purge'='FALSE');

插入表

支持标准单表INSERT INTO操作：

INSERT INTO iceberg_create2 VALUES (1);

INSERT INTO iceberg_create1 select * from iceberg_create2;

在HIVE 3.x中，INSERT OVERWRITE虽然能执行，但其实是追加。

删除表

DROP TABLE iceberg_create1;

与 Spark SQL集成

环境准备

（1）安装 Spark

1）Spark与Iceberg的版本对应关系如下

Spark 版本Iceberg 版本2.40.7.0-incubating – 1.1.03.00.9.0 – 1.0.03.10.12.0 – 1.1.03.20.13.0 – 1.1.03.30.14.0 – 1.1.0

2）上传并解压Spark安装包

tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/

mv /opt/module/spark-3.3.1-bin-hadoop3 /opt/module/spark-3.3.1

3）配置环境变量

sudo vim /etc/profile.d/my_env.sh

export SPARK_HOME=/opt/module/spark-3.3.1

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile.d/my_env.sh

4）拷贝iceberg的jar包到Spark的jars目录

cp /opt/software/iceberg/iceberg-spark-runtime-3.3_2.12-1.1.0.jar /opt/module/spark-3.3.1/jars

（2）启动 Hadoop

Spark 配置 Catalog

Spark中支持两种Catalog的设置：hive和hadoop，Hive Catalog就是Iceberg表存储使用Hive默认的数据路径，Hadoop Catalog需要指定Iceberg格式表存储路径。

vim spark-defaults.conf

Hive Catalog

spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog

spark.sql.catalog.hive_prod.type = hive

spark.sql.catalog.hive_prod.uri = thrift://hadoop1:9083

use hive_prod.db;

Hadoop Catalog

spark.sql.catalog.hadoop_prod = org.apache.iceberg.spark.SparkCatalog

spark.sql.catalog.hadoop_prod.type = hadoop

spark.sql.catalog.hadoop_prod.warehouse = hdfs://hadoop1:8020/warehouse/spark-iceberg

use hadoop_prod.db;

SQL 操作

创建表

use hadoop_prod;

create database default;

use default;

CREATE TABLE hadoop_prod.default.sample1 (

id bigint COMMENT 'unique id',

data string)

USING iceberg

PARTITIONED BY (partition-expressions) ：配置分区 LOCATION ‘(fully-qualified-uri)’ ：指定表路径 COMMENT ‘table documentation’ ：配置表备注 TBLPROPERTIES (‘key’=‘value’, …) ：配置表属性

表属性：https://iceberg.apache.org/docs/latest/configuration/

对Iceberg表的每次更改都会生成一个新的元数据文件（json文件）以提供原子性。默认情况下，旧元数据文件作为历史文件保存不会删除。

如果要自动清除元数据文件，在表属性中设置write.metadata.delete-after-commit.enabled=true。这将保留一些元数据文件（直到write.metadata.previous-versions-max），并在每个新创建的元数据文件之后删除旧的元数据文件。

（1）创建分区表

1）分区表

CREATE TABLE hadoop_prod.default.sample2 (

id bigint,

data string,

category string)

USING iceberg

PARTITIONED BY (category)

2）创建隐藏分区表

CREATE TABLE hadoop_prod.default.sample3 (

id bigint,

data string,

category string,

ts timestamp)

USING iceberg

PARTITIONED BY (bucket(16, id), days(ts), category)

支持的转换有:

years(ts):按年划分 months(ts):按月划分 days(ts)或date(ts):等效于dateint分区 hours(ts)或date_hour(ts):等效于dateint和hour分区 bucket(N, col):按哈希值划分mod N个桶 truncate(L, col):按截断为L的值划分

字符串被截断为给定的长度

整型和长型截断为bin: truncate(10, i)生成分区0,10,20,30，…

（2）使用 CTAS 语法建表

CREATE TABLE hadoop_prod.default.sample4

USING iceberg

AS SELECT * from hadoop_prod.default.sample3

不指定分区就是无分区，需要重新指定分区、表属性：

CREATE TABLE hadoop_prod.default.sample5

USING iceberg

PARTITIONED BY (bucket(8, id), hours(ts), category)

TBLPROPERTIES ('key'='value')

AS SELECT * from hadoop_prod.default.sample3

（3）使用 Replace table 建表

REPLACE TABLE hadoop_prod.default.sample5

USING iceberg

AS SELECT * from hadoop_prod.default.sample3

REPLACE TABLE hadoop_prod.default.sample5

USING iceberg

PARTITIONED BY (part)

TBLPROPERTIES ('key'='value')

AS SELECT * from hadoop_prod.default.sample3

CREATE OR REPLACE TABLE hadoop_prod.default.sample6

USING iceberg

AS SELECT * from hadoop_prod.default.sample3

删除表

对于HadoopCatalog而言，运行DROP TABLE将从catalog中删除表并删除表内容。

CREATE EXTERNAL TABLE hadoop_prod.default.sample7 (

id bigint COMMENT 'unique id',

data string)

USING iceberg

INSERT INTO hadoop_prod.default.sample7 values(1,'a')

DROP TABLE hadoop_prod.default.sample7

对于HiveCatalog而言：

在0.14之前，运行DROP TABLE将从catalog中删除表并删除表内容。从0.14开始，DROP TABLE只会从catalog中删除表，不会删除数据。为了删除表内容，应该使用DROP table PURGE。

CREATE TABLE hive_prod.default.sample7 (

id bigint COMMENT 'unique id',

data string)

USING iceberg

INSERT INTO hive_prod.default.sample7 values(1,'a')

（1）删除表

DROP TABLE hive_prod.default.sample7

（2）删除表和数据

DROP TABLE hive_prod.default.sample7 PURGE

修改表

Iceberg在Spark 3中完全支持ALTER TABLE，包括:

重命名表设置或删除表属性添加、删除和重命名列添加、删除和重命名嵌套字段重新排序顶级列和嵌套结构字段扩大int、float和decimal字段的类型将必选列变为可选列

此外，还可以使用SQL扩展来添加对分区演变的支持和设置表的写顺序。

CREATE TABLE hive_prod.default.sample1 (

id bigint COMMENT 'unique id',

data string)

USING iceberg

（1）修改表名（不支持修改HadoopCatalog的表名）

ALTER TABLE hive_prod.default.sample1 RENAME TO hive_prod.default.sample2

（2）修改表属性

修改表属性 ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES (

'read.split.target-size'='268435456'

)

ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES (

'comment' = 'A table comment.'

)

删除表属性 ALTER TABLE hive_prod.default.sample1 UNSET TBLPROPERTIES ('read.split.target-size')

（3）添加列