网站首页 > 数据库 > 正文

一篇文章搞懂数据仓库：常用ETL工具、方法，字节跳动+京东+美团+腾讯面试总结

人工智能创新创业项目数据库 2024-04-09 12 0

3.4 canal

3.5 StreamSets

四、ETL加载策略

4.1 增量

4.2 全量

4.3 流式

小编有话

一、什么是ETL？

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，是数据仓库的生命线。

**抽取（Extract）**主要是针对各个业务系统及不同服务器的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取和缓慢渐变的规则。

**转换（transform）**主要是针对数据仓库建立的模型，通过一系列的转换来实现将数据从业务模型到分析模型，通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式，实现了各种复杂的转换，并且支持自动分析日志，清楚的监控数据转换的状态并优化分析模型。

**装载（Load）**主要是将经过转换的数据装载到数据仓库里面，可以通过直连数据库的方式来进行数据装载，可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式，可以灵活的集成到其他管理系统中。

二、ETL & ELT

伴随着数据仓库的发展（传送门：数据仓库的八个发展阶段），数据量从小到大，数据实时性从T+1到准实时、实时，ETL也在不断演进。

在传统数仓中，数据量小，计算逻辑相对简单，我们可以直接用ETL工具实现数据转换（T），转换之后再加载到目标库，即（Extract-Transform-Load）。但在大数据场景下，数据量越大越大，计算逻辑愈发复杂，数据清洗需放在运算能力更强的分布式计算引擎中完成，ETL也就变成了ELT（Extract-Load-Transform）。

即：Extract-Transform-Load >> Extract-Load-Transform

通常我们所说的ETL，已经泛指数据同步、数据清洗全过程，而不仅限于数据的抽取-转换-加载。

三、常用的ETL工具

下面小编将介绍几类ETL工具（sqoop，DataX，Kettle，canal，StreamSets）。

3.1 sqoop

是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。可以将一个关系型数据库（MySQL ,Oracle等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中。 sqoop命令的本质是转化为MapReduce程序。 sqoop分为导入（import）和导出（export），策略分为table和query 模式分为增量和全量。

3.2 DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

。**

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python） [外链图片转存中…(img-6Z3dQJWP-1711002216009)]

推荐链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

数据仓库 etl 面试

本文由用户于 2024-04-09 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18738273.html

金钥匙

一篇文章搞懂数据仓库：常用ETL工具、方法，字节跳动+京东+美团+腾讯面试总结

数据库数据仓库【物化视图的创建和管理】

程序人生 HBase在数据仓库中的应用

发表评论取消回复

金钥匙

一篇文章搞懂数据仓库：常用ETL工具、方法，字节跳动+京东+美团+腾讯面试总结

数据库 数据仓库 【物化视图的创建和管理】

程序人生 HBase在数据仓库中的应用

相关文章

发表评论取消回复

数据库数据仓库【物化视图的创建和管理】