hadoop 大数据 hive 清空分区表多姿势对比

chatgtp人工智能怎么下载数据库 2024-03-25 7 0

目的

测试清空hive分区表(分区>1000) 最优方案

测试背景

表: 分区表二级分区分区个数: 5400数据量: 8000 万HDFS占用: 214.9 GB复制测试的分区表每张表耗时: 18min,其中扫描5400个路径下的文件耗时26s

set spark.executor.memory=3g;set spark.executor.cores=15;set spark.executor.instances=6;set hive.exec.max.dynamic.partitions=10000000; – beeline不配置,会报错(number of dynamic partition more than 1000) 计算平台不配置,不报错,但是sql失败. 以下测试耗时在同环境同配置执行.

方案1 不推荐 truncate table tableName 删parquet,不删分区文件夹,不删hive元数据中分区信息

耗时 18min

第8min开始删除hdfs文件第9min文件删除完毕第18min任务执行完毕

结果:

hdfs表下分区文件夹都在,内部存储数据的parquet被删除hive元数据中分区信息未被删除(show partitions tableName 结果还在)

方案2 alter table tableName drop if exists partition (dt <> ‘null’)

耗时 4min 删parquet,删分区文件夹,删hive元数据中分区信息

第2min开始删除文件第3min删除完所有文件,并开始删除元数据中分区信息( 日志显示 dropped the partition dt= … )第4min 元数据中分区信息删除完毕

结果:

hdfs表下内部存储数据的parquet被删除,分区文件夹也被删除hive元数据中分区信息被删除(show partitions tableName 无结果)

方案3 推荐 hdfs删除分区文件夹+文件 && alter table tableName drop if exists partition (dt <> ‘null’)

耗时1min40s

hadoop fs -rm -r “/user/hive/warehouse/rljl.db/tableName/*”

耗时3s alter table tableName drop if exists partition (dt <> ‘null’); – 必须删除元数据中的分区信息,否则spark看到元数据有某个分区,去HDFS找文件夹找不到会报错

耗时 1min 40s

结果:

hdfs表下内部存储数据的parquet被删除,分区文件夹也被删除hive元数据中分区信息被删除(show partitions tableName 无结果)

方案4 复制表结构+删除表+表重命名不考虑(由于计算平台无法导出用户代码建表的物理模型)

步骤

create table tb1_bak like tb1;drop table tb1;alter table tb1_bak rename to tb1;

方案5 hive+spark都是3.x版本 hdfs删除表下所有文件[夹] + msck repair table tb1 sync partitions ;

注意: 低版本不支持sync 会导致msck只能够把hdfs新增的分区信息同步到hive元数据中,而不能把hdfs减少的分区信息同步到hive元数据中.

好文阅读

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

Hive hadoop 大数据

本文由用户于 2024-03-25 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18680803.html

金钥匙

hadoop 大数据 hive 清空分区表多姿势对比

hadoop 数据仓库 hive里如何高效生成唯一ID

hadoop 数据仓库 Hive 面试系列：时间交叉问题

发表评论取消回复

金钥匙

hadoop 大数据 hive 清空分区表 多姿势对比

hadoop 数据仓库 hive里如何高效生成唯一ID

hadoop 数据仓库 Hive 面试系列：时间交叉问题

相关文章

发表评论取消回复

hadoop 大数据 hive 清空分区表多姿势对比