写在前面 博客主页:kikoking的江湖背景欢迎关注点赞收藏⭐️留言本文由 kikokingzz 原创,CSDN首发!首发时间:2021年1月19日最新更新时间:2021年1月19日✉️坚持和...
-
数据仓库 数据挖掘 数据库 数据湖 【舍友居然在看】知网都搜不到的知识:湖仓一体
-
数据仓库 Doris 与 ClickHouse 的深度对比
一、背景介绍 Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据分析需求,例如固定历史报表,...
-
大数据 数据仓库 「Hive」Hive与MySQL技术差异点(二):HQL查询语句
本文主要内容 HQL查询语句与MySQL执行顺序的区别; Hive复合类型的数据查询、正则查询以及Hive独有的排序方式; Hive语句的表关联语法; Hive子查询的限制; Hive开窗函数的语法包含偏...
-
hadoop 数据仓库 Hive字符串数组json类型取某字段再列转行
一、原始数据 acctcontent1232313[{"name":"张三","code":"上海浦东新区89492jfkdaj\r\n福建的卡"...},{"name":"狂徒","code":"select * from...
-
数据库 大数据 数据仓库 一张图讲清数据中台来龙去脉
阶段2:传统单体架构阶段的数据应用(DB-˃DW),引入MDM 传统单体应用有一个问题,就是具有主数据属性的数据分散在各个单体应用中。以物料为例,物料在多个系统(SRM、ERP、CRM)中都会存在。 一个物料涉及到采购属性,...
-
hadoop 数据仓库 HIVE建表详细教程
1. 注意事项如下 1.1 分区字段 可以有多个分区字段,一般以时间维度来建立分区,也可以再加其他字段。以业务场景为提前条件,来设定分区的字段。 从业务角度理解,分区字段可理解为业务数据的一部...
-
大数据 数据仓库 Hive数据类型总结
背景 在不同业务的表使用中,如果不注意数据类型,很容易导致取出数据的字段值为0而导致错误判断。 比如在这个业务场景中业务取出字段为0:原因是二级key作为的是另一个map的key而不是一个属性。 错误取法:rgpnewbeh...
-
spark 大数据 【数据仓库设计基础(四)】数据仓库实施步骤
文章目录 1.定义范围2.确定需求3.逻辑设计1)建立需要的数据列表2)识别数据源3)制作实体关系图 4.物理设计1)性能优化2)数仓的拓展性 5.装载数据6.访问数据7.管理维护 实施一个数据仓库项目的主要步骤是...
-
数据挖掘 python 数据分析 数据仓库 数据安全 人工智能 【文末送书】AI时代数据的重要性
欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关...
-
hadoop 数据仓库 【DBeaver】驱动添加-Hive和星环
驱动 Hive驱动 hive驱动可以直接去官网下载官网地址,填一下个人信息。 如果想直接下载可以去我上次的资源下地址,需要用zip解压。 星环驱动 星环驱动是我第一次接触,是国产的基于开源Hive驱动自研的产品,我看到官网上...
-
hadoop 分布式 从零开始了解大数据(六):数据仓库Hive篇
目录 前言 一、数据仓库基本概念 二、Apache Hive入门 1.Apache Hive概述 2.Apache Hive架构与组件 三、Apache Hive安装部署 1.Apache Hive部署实战 (1 Hado...
-
数据仓库 数据挖掘 大数据 怎样理解维度建模?
维度建模(dimensional modeling)是数据仓库建设中的一种非常重要的数据建模方法,是将数据进行结构化的逻辑设计方法。 维度建模由数据仓库领域的大师Ralph Kimball最先提出,他所参与著作的《数据仓库...
-
数据仓库 MySQL数据库中数据表的约束条件
目录 1.primary key :主键约束,用于唯一标识对应的记录 1.单字段主键 2. 复合主键 2.foreign key:外键约束 1.创建表时添加外键约束 2.为已存在的表添加外键约束 3.删除外键约束 3...
-
数据仓库 数据库 数据挖掘 数据治理中最常听到的名词有哪些?
开门见山,我们先来说说何为“数据治理” 数据治理就是实现数据价值的过程。通俗的理解就是让企业的数据从不可控、不可用、不好用到可控、方便易用且对业务有极大帮助的过程。 这个过程怎么实现?通过采集、传输、储存等一系列标准化流程将...
-
数据库 数据仓库 变更数据捕获(CDC)
从广泛意义上说,全球许多企业每天都需要通过频繁的数据批量处理与加载,来定期将数据从一个数据库迁移到另一个数据库(或数据仓库 。这类定期批量加载的工作,往往既耗费时间,又会消耗原始系统的大量处理能力。因此,管理员只能在业务运行...
-
数据仓库 数据库 数据挖掘 【湖仓一体化】存OR算之争?SPL 我都要
在互联网技术飞速发展的今天,数据已经成为了最为宝贵的资源之一。数据的产生、收集和分析,已经成为了科技公司最为重要的一环。到底什么是湖仓一体?它和数据仓库、数据湖的关系是什么?为什么要用一体来形容呢? 从一体机、超融合到云计算...
-
大数据技术之Hadoop学习(七)——Hive数据仓库
目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)...
-
数据仓库 设计规范 sqlserver mysql 数据库的设计
1.数据模型 数据模型的概念:数据模型是对现实世界数据特征的抽象。 概念模型 按照用户的观点来对数据和信息建模,主要用于数据库设计 ER模型 逻辑模型和物理模型 逻辑模型 按照计算机系统的观点对数据建模,主要用...
-
大数据 hbase 轻松通关Flink第21讲:Flink 在实时计算平台和实时数据仓库中的作用
基于 Flink 的实时计算平台 大部分公司随着业务场景的不断丰富,同时在业界经过多年的实践检验,基于 Hadoop 的离线存储体系已经足够成熟。但是离线计算天然时效性不强,一般都是隔天级别的滞后,业务数据随着实践的推移,本...
-
数据仓库 数据库 大数据 干货 | 携程酒店实时数仓架构和案例
作者简介 秋石,携程数据仓库专家,关注大数据、数据仓库、数据治理等领域; 九号,携程数据技术专家,关注数据仓库架构、数据湖、数据治理; 魁伟,携程资深数据工程师,关注实时&离线大数据产品及技术。 一、实时数仓 当前...
-
数据库,数据仓库,数据湖
数据仓库四层分层 ODS——原始数据层:存放原始数据 ODS层即操作数据存储,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层;一般来说ODS层的数据和源系统的数据...
-
hadoop 数据分析 大数据 数据仓库 1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解
Apache Hive 系列文章 1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解 2、hive相关概念详解–架构、读写文件机制、数据存储 3、hive的使用示例详解-...
-
第八章 综合案例--构建DVD租赁商店数据仓库
一、加载日期数据至日期维度表 通过Kettle工具加载日期数据至dim_date日期维度表。 1.打开Kettle工具,创建转换 使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控...
-
数据仓库 海豚调度 大数据 hadoop 海豚dolphinscheduler 通过shell 调用.sql文件 传参
1. 准备sql文件 1.1 资源中心--创建文件 1.2 文件格式选择 sql, 文件内容 填要执行的sql内容 1.3 点击创建保存 2.shell调用.sql文件 2.1 拖拽一个shell 节点 2.2 编辑she...
-
运维开发 database sqlserver 数据仓库 sql server 远程登录问题总结
sqlserver 远程登录问题解决办法 sqlserver 无法远程登录的原因 1、SQLserver 设置问题 2、tcpip 协议设置问题 3、防火墙设置问题 解决办法 sqlserver 设置 1、sqlserver...
-
hadoop 数据仓库 如何在将数据插入时合并hive创建的小文件?
1.使用 Hive 插入表时控制文件大小的一种方法是设置以下参数: 适用于 M/R 和 Tez 引擎,并确保创建的所有文件的大小不超过 128 MB(可以根据用例更改该大小数字。其他阅读:https://community....
-
hadoop 数据仓库 DataGrip连接hive教程
前言 虽然hive官方提供了两种的客户端,但是页面不友好、智能程度低,因此我们往往使用能够提供良好图形页面的第三方客户端。 一、hive可视化客户端 常见类型:DataGrip、Dbeaver、SQuirrel Client...
-
hadoop 数据仓库 hive-3.1.3 部署 ubuntu20
准备 安装hadoop 安装hive # 上传# 环境变量# 初始化元数据库 (metastore 。derby 只支持单连接。报错解决 https://blog.csdn.net/qq_41918166/article/d...
-
hadoop 数据仓库 sql hive lateral view 实践记录(Array和Map数据类型)
目录 一、Array 1.建表并插入数据 二、Map 1、建表并插入数据 3、查询数据 一、Array 1.建表并插入数据 正确插入数据: insert into tmp.test_lateral_view_movie_23...
-
hadoop 数据仓库 大数据 Hive的基本SQL操作(DDL篇)
目录 编辑 一、数据库的基本操作 1.1 展示所有数据库 1.2 切换数据库 1.3 创建数据库 1.4 删除数据库 1.5 显示数据库信息 1.5.1 显示数据库信息 1.5.2 显示数据库详情 二、数据库表的基本操作...
-
hadoop 数据仓库 大数据 Hive中处理中文乱码问题的解决方法
中文乱码是在处理大数据时经常遇到的问题之一,尤其是在使用Hive进行数据分析和查询时。本文将介绍一些解决Hive中文乱码问题的方法,并提供相应的源代码示例。 设置Hive的字符集编码在Hive中,可以通过设置字符集编码来解...
-
人工智能 big data 大数据 物联网 数据仓库 智慧社区数字孪生IOC系统
智慧社区数字孪生IOC可汇聚综合态势、事件感知、监督指挥、决策分析、公共服务等功能,通过整合社区“人、地、事、物、组织”等全要素,实现辖区内人口、房屋、车辆、设施设备、突发事件、应急预案等信息及数据联动,实现“一张图”服务的...
-
笔记 学习 《数据仓库与数据挖掘》期末复习总结
《数据仓库与数据挖掘》期末复习总结 适用教材:《数据挖掘概念与技术(第3版)》,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示:与教材内容不完全匹配,有所取舍 写在前面: 这...
-
数据仓库 【数仓】离线和实时数据开发-《大数据之路》读书笔记
今天更新《大数据之路》第 4 章和第 5 章,离线数据开发以及实时技术。关注公众号回复 802 获取 pdf。其他章节更新中。可以点击这里查看其他章节。 前面的文章讲述了日志文件和业务系统的数据如何采集到大数据平台中...
-
数据分析 数据仓库 数据库架构 【数据治理】数据元、元数据、主数据、参考数据概述
【数据治理】数据元、元数据、主数据、参考数据概述 数据元 什么是数据元: 《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的: 数据元(Data element):又称数据类型,通过定义、...
-
大数据 spark 数据仓库相关
在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Applicat...
-
大数据 产品运营 数据仓库 搭建资金运营体系提高企业的运营能力
资金运营体系是以项目资金流管理为核心,在项目预核算体系基础上的深度化,是丰富和完善全面预算管理的重要内容。资金运营体系建设嵌入到业务流程和项目实施过程,将资金使用成本贯穿于项目实施各个环节。 一、资金管控总体思路 1、资金...
-
数据仓库 数据库开发 dba 数据库架构 MySQL 03 高级查询(一)
MySQL 03 高级查询(一) 文章目录 MySQL 03 高级查询(一)一、学习目标二、调整数据库的表结构三、修改表四、设置主外键约束五、添加约束 (练习 六、数据操纵语言6.1.DML(Data Manipulat...
-
big data 数据仓库 数据库 数据标准 数据治理中的数据分类
一、记录类数据 1、事务数据 事务是数据库处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日...
-
java 开发语言 数据仓库 数据同步 之 Otter
一、Otter 语言:java 定位:基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库,一个分布式数据库同步系统。 1.工作原理: 2.原理描述 1. 基于Canal开源产品,获取数据库增...
-
数据仓库 详细记录拉链表的实现过程
面试中被问到了,想了会儿思路混乱没答好,还是理解的不够深刻,重新好好理解记录一下~ 拉链表的用途,主要是用来在数仓中记录业务库数据的全部历史信息和当前最新信息,也就是用来实现对渐变维的记录。数仓中对渐变维的记录通常有三种实现...
-
etl 数据仓库 Kettle安装问题及其解决办法
1、Connect按钮没了 原因: 解决办法: 让Spoon支持utf-8 编辑Spoon.bat,找到set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m",在其后增加一段...
-
oracle 数据库开发 数据仓库 大数据 超好用的plsql设置
1、格式化SQL语句 在使用 PL/SQL Developer的SQL Window时,有时候输入的SQL语句太长或太乱,希望能用比较通用的写法格式话一下,这样看起来会好看些,也好分析; 使用方法:选中需要格式化的SQL语句...
-
hadoop 数据仓库 1024程序员节 Hive —— 动态分区表
静态分区文章:Hive —— 静态分区表_月亮给我抄代码的博客-CSDN博客_hive创建静态分区表 前言:不要把分区字段设置成中文!!!!!! 创建动态分区表(与静态分区一致): row format delimite...
-
数据仓库 数据库 数据挖掘 CDMP选修课都有什么?
大家都知道CDMP认证考试有四个级别。分别是A级(基础级)P级(实践级)M级(专业级)F级(大师级)。级别越高,考试难度就越大,分数比例要求也更高,相对应的考试的科目也会有所增加。无论是哪个级别的考试《数据管理基础》都是比考...
-
数据挖掘 数据库 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库
内容目录 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库 一、高...
-
hadoop 数据仓库 Hive中Left Join基于or形式匹配连接的一种优雅实现方式
目录 0 引言 1 需求 2 数据准备 3 问题分析 4 小结 0 引言 Hive中对于模糊匹配关联是不支持的,如or 连接,基于like的模糊匹配连接,对于此类问题往往需要找新的方案,对于or连接网上给出了解决方案如un...
-
大数据 hadoop 数据仓库 Amazon EMR 配置 Hive 对Hue用户的权限控制
Hue 创建用户后无权限访问Hive 在hue中创建完用户后,还需要在主节点中创建这个user并在hive和hadoop中为这个user赋予权限,经过我这边的测试,步骤如下: Hue添加用户 添加管理员用...
-
大数据 数据仓库 Apache Hudi 数据湖之Hudi基础:入门介绍和编译部署
主要记录下Hudi的概述和打包编译等内容,方便参考 文章目录 简介官网发展历史Hudi特性使用场景 安装部署编译环境准备 编译hudi1.源码包上传到服务器2.修改pom文件3.修改源码兼容hadoop34.手动...
-
数据仓库 数据库架构 dba MySQL 05 存储过程
MySQL 05 存储过程 文章目录 MySQL 05 存储过程一、学习目标二、存储过程2.1为什么需要使用存储过程2.2什么是存储过程2.3存储过程的优缺点 三、创建存储过程3.1语法与特性:3.2声明语句分...