Hadoop大数据技术 Hadoop背景Hadoop生态圈Hadoop模式HDFS概述优点缺点基本组成NameNodeSecondary NameNodeDataNode YARNYARN调度器(Scheduler)F...
-
HDFS YARN MapReduce Hive 猿创征文|Hadoop大数据技术
-
hadoop 一百一十一、Hive——从HDFS到Hive的数据导入(静态分区、动态分区)
一、分区的定义 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹, Hive 中的分区就是分目录 ,把一个大的数据集根据业务需要分割成小的数据集。 在查询时通过 where 子句中的表达式选择查询...
-
数据库 hive数据仓库课后答案
第一章 数据仓库的简介 一、填空题 1.数据仓库的目的是构建面向 分析 的集成化数据环境。 2.Hive是基于 Hadoop 的一个数据仓库工具。 3.数据仓库分为3层,即 源...
-
hadoop HIVE运行卡死没反应的亲测解法
当执行一条插入语句时,一直卡着,卡在这一步,没有任何反应只能自己手动杀死,并且查看hdfs也没有数据插入成功。找了很多都没有得到解决。 尝试过的解决方案有: 1 重启hadoop和yarn 2 查看是否是端口被占用n...
-
hadoop 大数据 Hive数据倾斜的原因以及常用解决方案
在Hadoop平台的hive数据库进行开发的时候,数据倾斜也是比较容易遇到的问题,这边文章对数据倾斜的定义以及产生的原因、对应的解决方案进行学习。 一、数据倾斜的定义 数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成...
-
数据仓库 hive文件存储格式orc和parquet详解
hive支持的文件类型:textfile、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件) 一、orc文件 带有描述式的行列式存储文件。将数据分组切...
-
hadoop mysql 大数据 hive配置报错问题汇总
解决hive与hadoopguava.jar版本不一致报错 schematool -dbType mysql -initSchema密码不正确报错 解决方法 进入MySQL 修改hive数据库密码 SET PASSWORD...
-
信息可视化 基于hadoop+hive的全国天气大数据可视化平台
【大数据分析毕设之S2023102基于Hadoop+hive的全国天气大数据分析可视化平台(hive+sqoop+hdfs+E chart)】 https://www.bilibili.com/video/BV1224y1c...
-
Hive数据清洗中常见的几个函数
Hive数据清洗中常见的几个字符串处理函数 1.空格处理 trim( 2.字符串分割 split( 3.无用符处理 regexp_replace( 4.字符串拼接concat( concat_ws( 5.获取json...
-
hadoop hive etl etl工程师 使用sqoop进行数据迁移遇到回车符、换行符问题
当使用sqoop进行数据迁移遇到换行符的问题可能会导致sqoop任务执行完迁移的数据条数与在hive中查询SQL得到的数据条数可能不一致,造成这个错误的原因大概率是换行符或者回车符的问题 如果遇到的是英文的换行符或者回车符...
-
大数据 数据库 数据分析 hive 基于Python-sqlparse的SQL表血缘追踪解析实现
目录 前言 一、主线任务 1.数据治理 2.血缘追踪 3.SQL表血缘 二、实现过程 1.目标效果 2.代码实现 1.功能函数识别 2.SQL标准格式 3.解析AST树 4.最终效果: 点关注,防走丢,如有纰漏之处,请留言...
-
hadoop 数据仓库 Hive简述
Hive的产生背景 数据库擅长事务性的工作,但不擅长分析型的工作,所以应要求就产生了数据仓库。 数据仓库相当于集成化数据管理的平台,从多个数据源抽取有价值的数据,在仓库内转换和流动,并且提供给BI等分析工具 简而言之,数据仓...
-
hive 一篇搞定分布式大数据系统所有概念,包括有Hadoop、MapReduce、HDFS、HBASE、NoSql 、ZooKeeper 、Reidis 、Nginx 、BASE、CAP定义、特点和应用场景
大规模分布式系统知识点学习 1.1hadoop定义和特点 Hadoop定义: Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它基于Google的MapReduce论文和Google文件系统(GFS)的设...
-
hadoop hdfs Hive电子商务消费行为分析项目
文章目录 数据说明环境准备项目代码上传数据文件并创建数据表数据清洗数据可视化客户分析交易分析门店分析评价分析 数据说明 某零售企业的门店最近一年收集的数据 customer_details.csv:客户信息transact...
-
hadoop 数据仓库 SpringBoot 3 集成Hive 3
前提条件: 运行环境:Hadoop 3.* + Hive 3.* + MySQL 8 ,如果还未安装相关环境,请参考:Hive 一文读懂 Centos7 安装Hadoop3 单机版本(伪分布式版本) SpringBoo...
-
hadoop 数据仓库 Hive加密,PostgreSQL解密还原
当前公司数据平台使用的处理架构,由Hive进行大数据处理,然后将应用数据同步到PostgreSQL中做各类外围应用。由于部分数据涉及敏感信息,必须在Hive进行加密,然后在PG使用时再进行单个数据解密,并监控应用的数据调用事...
-
数据仓库 大数据之数仓及Hive介绍
文章目录 前言 一、数据仓库介绍 (一) 数据仓库的基本概念 (二)数据仓库的主要特征 (三)数据仓库与数据库的区别 二、Hive的概念 (一)Hive的介绍 (二)Hive的架构...
-
开发语言 Python连接Hive实例教程
一 Python连接hive环境实例 经在网络查询相关的教程,发现有好多的例子,发现连接底层用的的驱动基本都是pyhive和pyhs2两种第三方库的来连接的 hive,下面将简介windows 10 pyt...
-
数据仓库 hadoop Hive初识
数据仓库 Data Warehouse,简写 DW,, 为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合 单个数据存储,出于分析报告和决策支持目的而创建 面相分析的存储系统 一个面向主题的(Subject Ori...
-
报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因查找
项目场景: 使用hive分析、处理数据时 问题描述 执行hive语句后,报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exe...
-
Hive 日志信息配置
默认日志路径 Hive 的 log 默认存放在/tmp/xxx/hive.log 目录下(当前用户名下) 此命令显示文件的最后 10 行。不断刷新,只要日志文件更新就可以看到最新的文件内容,直到您按下(Ctrl-C)组合键停...
-
大数据 Hive 数据库常用基础命令
文章目录 Hive 数据库常用基础命令一、创建数据库1、创建数据库2、创建表3、创建外部表4、查看所有数据库5、查看数据库里面的表 二、删除数据库1、删除表2、删除数据库 三、修改表1、重命名表名2、修改表里面...
-
数据库 SQL学习(十):Hive之Instr()函数
1、语法 instr(sourceString,destString,start,appearPosition instr(’源字符串’ , ‘目标字符串’ ,’开始位置’,’第几次出现’) 1.sourceString...
-
hive 数据库 sql 通过lead lag获取数据连续最大条数-获取用户连续登录最长天数
目录 一、业务需求二、初始化测试数据三、实现(一)最终语句(hive)(二)思路 一、业务需求 获取每个用户连续登录的最长天数 二、初始化测试数据 三、实现 (一)最终语句(hive) (二)思路 实现考虑如下场景: 1、...
-
hadoop 大数据 hive表的输入输出格式总结
hive建表语句: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], … ] [CO...
-
hadoop 大数据 hive impala入门
1. Impala基础 1.1. 了解Impala的架构和工作原理 Impala是一个用于Hadoop生态系统的高性能、低延迟的分布式SQL查询引擎,它允许用户在Hadoop集群上进行交互式的分析查询。Impala的目...
-
mysql 数据库 linux hive 【头歌】Sqoop数据导出 - 详解
【提示】点击每一关参考答案可以快速复制。 目录 第1关:Sqoop数据导出语法学习 任务描述 相关知识 编程要求 测试说明 参考答案 第2关:HDFS数据导出至Mysql内 任务描述 相关知识 编程要求 测试说明 参考答案...
-
hadoop 大数据开发八股文总结——Hive
目录 什么是 Hive?Hive 本质Hive 架构原理Hive安装部署(重要)安装 Hive启动并使用 Hive安装MySQL配置 Hive 元数据存储到 MySQL DDL(Data Definition Lang...
-
大数据 数据湖 Hudi(23):Hudi集成Hive之同步
目录 0. 相关文章链接 1. Flink同步Hive 1.1. 使用方式 1.2. 案例实操 2. Spark同步Hive 2.1. 使用方式 2.2. 案例实操 0. 相关文章链接 Hudi文章汇总 1. Flink...
-
hadoop 数据仓库 Hive无法启动的解决方案
关掉虚拟机后,重新启动后,按照Hadoop和Hive的流程重新启动,发现无法启动成功,特别是元数据服务无法启动,出现以下错误: 重新启动Hadoop和Hive都是相同的错误,查看jps发现NameNode没有启动: 需要删除...
-
hadoop 数据仓库 大数据 mysql hive安装步骤
centos7安装hive,hive版本3.1.2 一、环境准备 JDK版本:jdk-8u381 Hadoop版本:hadoop-3.1.3 MySQL版本:8.0.34 二、hive安装步骤 1.解压 将压缩包复制到/op...
-
大数据 hive 数据中台-DataX文件写入索引越界问题处理
DataX-写入HDFS时报错索引越界IndexOutOfBoundsException 详细报错日志如下 2023-02-03 09:45:35.355 [0-0-0-writer] ERROR HdfsWriter$Jo...
-
hadoop 数据仓库 大数据 Hive内部表(管理表)和外部表的区别【重点】
一、内部表和外部表的区别: 内部表和外部表的区别可以从三方面讨论,创建表时、删除表时、选择表时: 1.创建表: 建表时,未被external修饰的是内部表,被external修饰的是外部表。 内...
-
hive报错:return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exceptio
根据网上搜的解决方案(基本都是说连接的mysql编码不对 :改alter database hive character set latin1; 但是依然报错,根据后半段报错 MetaException(message:Go...
-
分布式 数据仓库 离线数仓搭建流程以及遇到的问题Hadoop3.3.1-hive3.1.2-spark 3.3.1
目录 简言 数仓选型 前期准备 更改三个节点主机名: 新增用户组以及用户: 配置互信 JDK安装 mysql安装 Zookeeper3.8安装 Hadoop3.3.1搭建 Hive3.1.3搭建 Spark3.3.1安装 想...
-
大数据测试-hive、doris、clickhouse、mysql、elasticsearch、kudu、postgresql、sqlserver
大数据工作要接触很多的数据库和查询引擎 数据库: 1、hive:用于跑批,大批量,稳定,缺点:无update。用于数仓 2、doris db:已更名starrocks。即时查询 可达千亿级别 文档:什么是 StarRocks...
-
hadoop 数据仓库 Hive使用语句
一、HIVE基础 1.1 建表与插入数据 建表 -- 新建Hive表: -- datag_time string comment '字段名称', group_type char(10 comment '字段名称', ra...
-
hadoop 惊!-hive on spark(hive任务)任务慢---竟然有这些原因!
项目场景: 项目组中有很多hive on spark任务,每个小时调度一次。要求每次调度任务执行不能超过一个小时,只要超过一个小时就会影响下一个任务调度! 问题描述 问题嘛:自然是调度,任务执行超过了一个小时,还很多,中台没...
-
hadoop搭建、mysql、hive部署
写在前面:本篇文章基于linux系统Centos7环境下进行搭建、操作仅作为学习参考借鉴,欢迎大家交流学习!一、 HDFS安装搭建 1.1 关闭虚拟机防火墙 在之后的学习、操作中,经常会遇到在宿主机中通过程序去访问虚拟机中的...
-
6. Hive中的 explode / posexplode 和 lateral view
文章目录 Hive中的 explode / posexplode 和 lateral view1. explode( 1.1 用于 array 的语法如下1.2 用于 map 的语法如下1.3 explode( 函数存在...
-
hadoop 大数据 hive常见错误及解决方案
1)连接不上MySQL数据库 (1)导错驱动包,应该把mysql-connector-java-5.1.27-bin.jar导入/opt/module/hive/lib的不是这个包。错把mysql-connector-ja...
-
hadoop 大数据 hive Sparkthrift Server 启动命令调优及问题报错解决
文章目录 1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, requi...
-
数据仓库 hive etl工程师 ETL工具与调度工具的区别(一)
ETL工具与调度工具的区别(一) 1、ETL工具:ETL为 Extract-Transform-Load 的缩写,三个单词描述了将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过...
-
hadoop 大数据 Hive的安装与配置——第2关:Hive Shell入门基础命令
第2关:Hive Shell入门基础命令 任务描述 本关任务:按照编程要求,在Hive下创建表。 相关知识 Hive Shell运行在Hadoop集群环境上,是Hive提供的命令行接口(CLI),在Hive提示符输入Hive...
-
大数据 big data hive Hadoop集群搭建-- 安装jdk、hadoop
关注微信公共号:小程在线 关注CSDN博客:程志伟的博客 一、jdk安装 1. 通过Xftp将本机JDK上传至服务器目录: 2. 查看是否上传成功: 3. 解压jdk 4. 配置环境变量 保存后退出 :wq 5. 使环境变量...
-
hadoop 数据仓库 sql hive报错 Grouping sets size cannot be greater than 64
1.原因: 使用了distinct,hive在执行SQL前优化改写distinct 为 group by 模式--即将 "所有字段进行group by" = "grouping set(所有字段 "默认set hive.n...
-
hive big data Hadoop3.x入门-SparkThriftServer部署
1.前言 SparkThriftServer,简称STS,作为SparkSQL的JDBC/ODBC服务,启动了STS服务后,就可以使用代码程序通过JDBC/ODBC的接口提交Spark SQL。 STS对标的是Hive的Hi...
-
大数据 杨校老师课题之Hive数据仓库搭建
Hive的安装模式有三种: 嵌入模式本地模式远程模式 (1) 嵌入模式 基于系统本身的数据库derby数据库进行存储元数据,该模式是默认安装方式,配置简单 缺点: 一次只能连接一个客户端,仅适合在测试环境内使用 (2)本地模...
-
数据仓库 hive 58同城面试盘点
58同城面试盘点 1.一张订单表,有user_name,order_id,order_time,order_amount 四个字段,怎么取出每个用户2021年10月以来第一个订单的金额(下单时间格式为’yyyy-MM-dd...
-
hadoop 数据仓库 hive add columns 后查询不到新字段数据的问题
分区表add columns 查询不到新增字段数据的问题; 5.1元数据管理 (1)基本架构 Hive的2个重要组件:hiveService2 和metastore,一个负责转成MR进行执行,一个负责元数据服务管理...