先说一些废话

总结一下Hive面试宝中的要点,方便读者快速过一遍Hive面试所需的知识点。本文请搭配 Hive面试宝典 来食用更美味哟 ┗( ▔, ▔ )┛

方便自己系统性回忆,根据*的数量来标记重要性

* 简单了解 ** 熟悉掌握 *** 需要精通

Hive的介绍(*)

Hive和Hadoop的关系Hive的特点Hive的缺点Hive常见的应用场景Hive和mysql的区别 Hive的架构(*)Hive的数据(**)

Hive的数据模型Hive的底层如何存储Null值Hive中元数据metadata和元数据商店metastore)`的作用Hive有哪些保存元数据metadata的方式Hive元数据存储方式中,本地模式和远程模式的区别Hive的数据类型Hive的隐式类型转换规则Hive数据存储所使用的文件格式Hive中使用的压缩算法什么是数据可分割关于压缩模式说明 Hive的安装与使用(*)

如何在Hive中集成HBase如何通过 HiveSQL 来直接读写 HBase Hive的分区和分桶(**)

什么是Hive分区Hive分区的优点Hive分区的缺点什么是Hive分桶关于Hive索引的说明Hive分桶的优点Hive分桶的缺点Hive中静态分区和动态分区的区别Hive动态分区的参数设定 Hive的内部表和外部表(*)

什么是Hive的内部表和外部表Hive内部表和外部表的区别是什么生产环境中为什么建议使用外部表 Hive SQL(***)

Hive中的SQL如何转化成MapReduce任务的什么情况下Hive不走MapReduce任务Hive中如何查询A表中B表不存在的数据Hive中有哪些连接查询以及如何使用Hive中左连接和内连接的区别Hive中左连接的底层原理Hive查询时候 ON 和 WHERE 有什么区别 Hive 函数(***)

如何使用UDF/UDAF/UDTF为什么使用UDF/UDAF/UDTF你写过什么样的UDF/UDAF/UDTHive自定义函数实现了什么函数什么接口Hive中如何去重Hive中排序函数的使用方式及区别请说明以下常用函数 split / coalesce / collect list / collect set 的功能请描述工作中常用的Hive常用函数及使用场景 Hive 运维(*)

如何监控一个提交后的Hive状态 Hive 优化(***)

请说明你在工作中如何进行Hive优化HiveSQL优化 ———— Hive单表查询优化HiveSQL优化 ———— Hive多表查询优化HiveSQL优化 ———— Hive其他查询优化Hive数据倾斜 ———— 单表携带了 Group By 字段的查询Hive数据倾斜 ———— 两表或多表的 join 关联时,其中一个表较小,但是 key 集中Hive数据倾斜 ———— 两表或多表的 join 关联时,有 Null值 或 无意义值Hive数据倾斜 ———— 两表或多表的 join 关联时,数据类型不统一Hive数据倾斜 ———— 单独处理倾斜keyHiveJob优化 ———— HiveMap优化方案HiveJob优化 ———— HiveReduce优化方案Hive整体优化方案

我是 fx67ll.com,如果您发现本文有什么错误,欢迎在评论区讨论指正,感谢您的阅读! 如果您喜欢这篇文章,欢迎访问我的 本文github仓库地址,为我点一颗Star,Thanks~  转发请注明参考文章地址,非常感谢!!!

好文推荐

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: