hadoop 2023 Hive 面试大纲

网络系统建设与运维数据库 2024-02-18 11 0

先说一些废话

总结一下Hive面试宝中的要点，方便读者快速过一遍Hive面试所需的知识点。本文请搭配 Hive面试宝典来食用更美味哟 ┗( ▔, ▔ )┛

方便自己系统性回忆，根据*的数量来标记重要性

* 简单了解 ** 熟悉掌握 *** 需要精通

Hive的介绍（*）

Hive和Hadoop的关系Hive的特点Hive的缺点Hive常见的应用场景Hive和mysql的区别 Hive的架构（*）Hive的数据（**）

Hive的数据模型Hive的底层如何存储Null值Hive中元数据metadata和元数据商店metastore)`的作用Hive有哪些保存元数据metadata的方式Hive元数据存储方式中，本地模式和远程模式的区别Hive的数据类型Hive的隐式类型转换规则Hive数据存储所使用的文件格式Hive中使用的压缩算法什么是数据可分割关于压缩模式说明 Hive的安装与使用（*）

如何在Hive中集成HBase如何通过 HiveSQL 来直接读写 HBase Hive的分区和分桶（**）

什么是Hive分区Hive分区的优点Hive分区的缺点什么是Hive分桶关于Hive索引的说明Hive分桶的优点Hive分桶的缺点Hive中静态分区和动态分区的区别Hive动态分区的参数设定 Hive的内部表和外部表（*）

什么是Hive的内部表和外部表Hive内部表和外部表的区别是什么生产环境中为什么建议使用外部表 Hive SQL（***）

Hive中的SQL如何转化成MapReduce任务的什么情况下Hive不走MapReduce任务Hive中如何查询A表中B表不存在的数据Hive中有哪些连接查询以及如何使用Hive中左连接和内连接的区别Hive中左连接的底层原理Hive查询时候 ON 和 WHERE 有什么区别 Hive 函数（***）

如何使用UDF/UDAF/UDTF为什么使用UDF/UDAF/UDTF你写过什么样的UDF/UDAF/UDTHive自定义函数实现了什么函数什么接口Hive中如何去重Hive中排序函数的使用方式及区别请说明以下常用函数 split / coalesce / collect list / collect set 的功能请描述工作中常用的Hive常用函数及使用场景 Hive 运维（*）

如何监控一个提交后的Hive状态 Hive 优化（***）

请说明你在工作中如何进行Hive优化HiveSQL优化 ———— Hive单表查询优化HiveSQL优化 ———— Hive多表查询优化HiveSQL优化 ———— Hive其他查询优化Hive数据倾斜 ———— 单表携带了 Group By 字段的查询Hive数据倾斜 ———— 两表或多表的 join 关联时，其中一个表较小，但是 key 集中Hive数据倾斜 ———— 两表或多表的 join 关联时，有 Null值或无意义值Hive数据倾斜 ———— 两表或多表的 join 关联时，数据类型不统一Hive数据倾斜 ———— 单独处理倾斜keyHiveJob优化 ———— HiveMap优化方案HiveJob优化 ———— HiveReduce优化方案Hive整体优化方案

我是 fx67ll.com，如果您发现本文有什么错误，欢迎在评论区讨论指正，感谢您的阅读！如果您喜欢这篇文章，欢迎访问我的本文github仓库地址，为我点一颗Star，Thanks~  转发请注明参考文章地址，非常感谢！！！

好文推荐

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

Hive 面试 hadoop

本文由用户于 2024-02-18 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18567907.html

金钥匙

hadoop 2023 Hive 面试大纲

hadoop 大数据 hive-数据导入导出(超级详细)

数据库 Hadoop学习（十）——HiveQL查询

发表评论取消回复

金钥匙

hadoop 2023 Hive 面试大纲

hadoop 大数据 hive-数据导入导出(超级详细)

数据库 Hadoop学习（十）——HiveQL查询

相关文章

发表评论取消回复