【hive】hive修复分区或修复表 以及msck命令的使用 文章目录 【hive】hive修复分区或修复表 以及msck命令的使用问题原因:解决方法:msck命令解析:例子: 问题原因: 之前hive里有数据,后面存储...
-
hadoop 数据仓库 【hive】hive修复分区或修复表 以及msck命令的使用
-
数据分析 hdfs hive 一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系
目录 1.1 Hadoop 是什么 1.2 Hadoop 发展历史 1.3 Hadoop 三大发行版本 1.4 Hadoop优势(4高) 1.5 Hadoop 组成(面试重点) 1.5.1 HDFS 架构概述 1...
-
(面试版)大数据组件的区别总结(hive,hbase,spark,flink)
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spa...
-
大数据 一百二十五、Hive——hive性能优化
在Hive中运行SQL,性能优化是个大坑! 总结一些 hive性能优化的参数设置 一、hive性能优化 set hive.vectorized.execution.enabled=false; set hive.auto.c...
-
hive的引擎mapreduce、tez和spark对比
hive引擎简介 Hive 的执行引擎包括以下几种: Hive on MapReduce Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任...
-
开启 kerberos 后,HiveServer2 的 webui 没有内容的解决方案
开启 kerberos 后,HiveServer2 的 webui 没有内容。页面如下,可以打开,但是即便已经有会话,也有SQL执行,这里一直这样。 1. 原因分析 以Active Sessions 的内容为例,./ser...
-
数据仓库 sql 大数据学习之Hive函数
一. Hive函数基础 1. 聚合函数 hive 支持 count( ,max( ,min( ,sum( ,avg( 等常用的聚合函数 注意: 聚合操作时要注意 null 值 count(* 包含 nul...
-
hadoop 什么是hive?什么是hbase?它们有什么区别与联系。
Hive和HBase是两个在大数据领域中常用的开源项目,它们有不同的功能和用途: Hive是一个基于Hadoop的数据仓库基础架构,它提供了一种类似于SQL的查询语言(HiveQL)来处理和分析大规模的结构化数据。Hiv...
-
hadoop 数据仓库 hive企业级调优策略之数据倾斜
测试所用到的数据参考: 原文链接:https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn...
-
hadoop 数据仓库 Hive 之中位数
文章目录 什么是中位数?Hive 求中位数示例 什么是中位数? 中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相...
-
大数据 Hive面试题十道
问题 1:什么是Hive? 答案:Hive是一个基于Hadoop的数据仓库工具,它提供了类似SQL的查询语言(HiveQL)来进行大规模数据的分析和处理。Hive将结构化数据映射到Hadoop的分布式文件系统(HDFS)上,...
-
hadoop 数据仓库 大数据 数据分析 database 数据库 【HIVE】数据的定义与操作
文章目录 前言一、Hive基本数据类型二、Hive集合数据类型三、Hive数据定义与操作1.创建数据库2.查看数据库3.删除数据库4.创建表5.修改表6.删除表7.分区表 四、数据的导入导出1.数据导入2.数据导出 前...
-
spark 如何用Java和Scala编写Hive的UDF函数:解析Json字符串
1. 前言 在实际的数据处理中,我们经常需要对数据进行各种各样的计算和处理,例如字符串的拼接、日期的转换、数值的运算等等。Hive作为一款基于Hadoop生态圈的数据仓库工具,提供了UDF(User-Defined Fu...
-
说明HDFS、HBase、Hive的区别
1、HDFS(分布式文件系统): 是Hadoop两大核心组成部分之一,提供在廉价服务器集群中进行大规模分布式文件存储的能力。具有很好的容错能力,并且兼容廉价的硬件设备,因此可以较低成本利用现有机器实现大流量和大数据量的...
-
大数据 【Hive实战】数据仓库设计
数仓中的数据分层 文章目录 数仓中的数据分层维度模型维度建模下的主要概念维度表事实表 结合维度模型分析数据分层贴源层 (Operation Data Store)公共维度层 CDM(Common Data Mode...
-
Spark读取Hive数据的两种方式与保存数据到HDFS
Spark读取Hive数据的两种方式与保存数据到HDFS Spark读取Hive数据的方式主要有两种 1、 通过访问hive metastore的方式,这种方式通过访问hive的metastore元数据的方式获取表结构信息和...
-
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发
注意:该项目只展示部分功能,如需了解,评论区咨询即可。 本文目录 1 设计背景2设计意义3 系统展示3.1 页面展示3.2 视频展示 4 更多推荐5 部分功能代码 1 设计背景 在当今数字化时代,电商行业成为...
-
大数据 Hadoop/HbBase/Hive/HDFS/MapReduce都是什么?
目录 一图胜万言!! 解释说明 总结 一图胜万言!! 解释说明 它是一个分布式计算+分布式文件系统,前者其实就是 MapReduce,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用 通俗的说是...
-
VM虚拟机 大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive
✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩...
-
hadoop Hive、Hbase、TiDB、Gbase的区别
在数据库不断发展的今天,尤其是大数据技术的发展,不断的涌现出各种海量数据存储及分析的数据库及相关工具令人演化缭乱,有的基于Hadoop构建,有的基于分布式理论自行构建,但是这些工具和数据库之间究竟有什么区别,都使用于什么场景...
-
hadoop 数据库 学习 笔记 数据仓库 【大数据】Hive入门➕安装(尚硅谷大数据Hive 3.1.3教程)
目录 前言一、Hive入门1.1. Hive本质1.2. Hive架构原理 二、Hive3.1.3安装1. 最小化安装部署(仅适合学习测试)2. 安装MySQL3. 卸载MySQL4. 配置Hive元数据存储到My...
-
hadoop 数据仓库 hive常用函数整理
关于日期 返回date1与data2之间的天数; 返回start_day前num_days的日期; #对于比较的两个时间,时间小的放在前面,时间大的放在后面 窗口函数 1.FIRST_VALUE( 函数 FIRS...
-
数据分析 HiveSQL分位数函数percentile()使用详解+实例代码
目录 前言 一、percentile( 二、percentile_approx( 点关注,防走丢,如有纰漏之处,请留言指教,非常感谢 前言 作为数据分析师每个SQL数据库的函数以及使用技能操作都得点满,尤其是关于统计函数...
-
大数据 【Sqoop】MySQL表导入Hive
文章目录 前言一、单表导入二、所有表导入参数说明 前言 用 Sqoop 将 MySQL 指定数据库指定的表导入Hive 的指定数据库 一、单表导入 --connect jdbc:mysql://hadoop102:3306...
-
hadoop [使用DataX采集Mysql数据到Hive]
使用DataX采集Mysql数据到Hive 目录 1. 需求 2. 开发步骤 3. Centos上安装MySQL 4. 贷款数据导入MySQL 5. 安装Hive 6. 启动Hadoop和Hive 7. Hive中建表...
-
Hadoop架构、Hive相关知识点及Hive执行流程
Hadoop架构 Hadoop由三大部分组成:HDFS、MapReduce、yarn HDFS:负责数据的存储 其中包括: namenode:主节点,用来分配任务给从节点 secon...
-
大数据 数据仓库 set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat; 解决 map 端的小文件进行合并
ods 层数据装载到 dim 层数据,出现 NULL 异常数据 原因:ods 层数据有 lzo文件的index索引文件,map端小文件合并把lzo的索引文件也给合并了,所以hive数据查询出现 NULL 异常数据 查看hiv...
-
hadoop 大数据 Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.
一、问题描述 安装好hive后执行初始化命令 报错信息如下: 二、问题原因及解决方法 执行初始化命令时发生报错是因为:hadoop和hive的两个guava.jar版本不一致 hive中版本为:guava-19.0.jar...
-
hadoop 数据仓库 Hive 删除一个字段
看到这个标题,是不是眼睛一亮,心想hive也能用一行语法删除一个字段或者批量删除了?就像新增一个字段一样。(此时新增字段内心:加我容易,删我难~~) hive 表增加一个字段: alter table tab...
-
hadoop 数据仓库 HiveSql语法优化二 :join算法
Hive拥有多种join算法,包括Common Join,Map Join,Bucket Map Join,Sort Merge Buckt Map Join等,下面对每种join算法做简要说明: ...
-
hadoop 数据仓库 Hive内容分享(六):Hive 内置函数和 UDF 讲解
目录 一、概述 二、环境准备 三、Hive 内置函数 四、Hive UDF 一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以...
-
sparksql查询hive表报错:codec com.hadoop.compression.lzo.LzoCodec not found 问题探究
1、问题描述 在某次测试时,我想用复用已有的表结构,所以拷贝了原来表的部分建表语句重新建了一个表,通过命令行往这个表添加数据正常,但是通过sparksql从该表查询数据时报错: 2、问题初步思考 在使用sparksql进行查...
-
数据库 hive java HQL语法
HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. 数据库操作 创建数据库 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/wareh...
-
hadoop 大数据 hive基础选择题
1.下列关于Hive特点总结正确的选项是() A Hive支持自由的扩展集群的规模,只需要重启服务即可 B Hive支持自定义函数,用户可以根据自己的需求去定义函数 C Hive SQL执行时,需要避免节点出现问题 D Hi...
-
大数据 hadoop Hive安装与配置及常见问题解决
目录 一 Hive的安装与配置 1.导包 2.元数据配置管理的修改 ④赋予权限 3.Hive的连接方式 4.Hive的优缺点 一 Hive的安装与配置 1.导包 ① 把三台虚拟机和xshell启动 ② 进入文件夹 ③ 导...
-
sql 数据库 hive的concat()、concat
hive的concat、concat_ws和collect_list、collect_set的用法 concat和concat_wscollect_list和collect_set concat和concat_ws con...
-
hadoop 数据仓库 大数据 Hive-concat
concat_ws 是 Hive 中的一个函数,用于在给定分隔符的情况下连接字符串数组或字符串。它的语法如下: 参数说明: separator: 分隔符,用于连接字符串。可以是任何有效的字符串。const1, const2,...
-
数据库 ubuntu22.04安装MySQL、Hive及Hive连接MySQL操作
前言 这篇文章主要讲述的是ubuntu22.04上数据仓库Hive的安装和使用 正文 建议按照文章实践前稍微通读下全文 安装MySQL服务端和客户端 相关命令: 修改mysql的配置文件 在终端中输入sudo vim /et...
-
大数据 Hive初始化遇到的问题:org.apache.hadoop.hive.metastore.HiveMetaException: 失败加载驱动程序
Hive初始化遇到的问题:org.apache.hadoop.hive.metastore.HiveMetaException: 失败加载驱动程序 在大数据领域,Hive是一个常用的数据仓库工具,它构建在Hadoop之上,提...
-
intellij-idea hadoop idea连接hive
在hadoop平台写hive命令容易出错,但在idea中写hive命令可以提示代码,代码写错还可以提示错误,所以选择在idea中写hive命令。 实验环境hadoop2.8.3 hive2.1.1 ...
-
hadoop 数据仓库 Hive-命令行CDH访问开启kerberos的hive
1.通过hive用户访问 切换用户为hive 上一次登录:五 4月 12 13:59:19 CST 2019pts/1 上命令行直接输入hive就可以进入hive 2.其他用户访问hive 其他用户为授权访问hive会出现以...
-
hadoop 数据仓库 Hive(26):Select高级查询之Common Table Expressions(CTE)
1 CTE介绍 公用表表达式(CTE)是一个临时结果集,该结果集是从WITH子句中指定的简单查询派生而来的,该查询紧接在SELECT或INSERT关键字之前。 CTE仅在单个语句的执行范围内定义。一个或多个CTE可以在Hiv...
-
大数据 分布式 hadoop hive HBase表设计
八 HBase表设计 设计HBase表时需要注意的特点 HBase中表的索引是通过rowkey实现的在表中是通过Row key的字典顺序来对数据进行排序的, 表中Region的划分通过起始Rowkey和结束Rowkey来...
-
大数据 HIVE整合HBASE
目录 一、实验环境准备 二、Hive整合HBase原理 三、整合的意义 四、实验步骤 1.修改hive-site.xml文件以及hive-env.sh文件配置 2. 将hbase lib目录下的所有文件复制到hive li...
-
hadoop 大数据 linux Hbase,Hive和Hdfs的关系以及区别
HBase是一个分布式的、面向列的开源数据库,Hbase是Hadoop database即Hadoop数据库。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。不过HBase 本身其实可...
-
大数据 sqoop笔记——一次从Hive到PostgreSql的数据迁移
写在开头 sqoop,想必进来围观的小伙伴们已经很熟悉了,笔者想把一些在实际使用sqoop过程中遇到的问题和注意事项记录并分析给大家,希望能帮助有需要的同学。随着对sqoop不断深入的了解,笔者会不断的以文章的形式记录并分析...
-
hadoop 【大数据】Hive查询(select 1)源代码分析详解
查询结果 总共花费了 0.5 毫秒 日志 在日志中看到 ,花费的时间主要在 这段内: 通过代码来分析,这段干了啥: 源代码都是基于 apache-hive-3.1.2 主要花费时间在 compile 阶段,直接看compi...
-
hadoop 数据仓库 解决Hive在DataGrip 中注释乱码问题
注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。 不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表...
-
大数据 Hive04
Hive DDL操作 1 DDL 数据定义 1.1 创建数据库 [IF NOT EXISTS] :判断是否存在 [COMMENT database_comment] :注释 [LOCATION hdfs_path]:指定数据...
-
hadoop 数据仓库 hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区
hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区 结论 在非严格模式下不开启动态分区的功能的参数(配置如下),同样也能进行动态分区数据写入,目测原因是不严格检查SQL中是否指定分区或者多...