关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Redshift Performance, Redshift Elasticity, Redshift Availability, Redshift Data Sharing, Redshift Serverless]

本文字数: 1300, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV13C4y1R7ZB

导读

指数级的数据增长为数据从业者管理能够在成本约束范围内大规模支持高性能工作负载的数据仓库带来了独特的挑战。Amazon Redshift 在过去十年中不断创新,为您提供一个现代化的大规模并行处理云数据仓库,提供最佳的性价比、易用性、可扩展性和可靠性。在本论坛中,了解 Amazon Redshift 的技术创新,包括Serverless、 AI/ML 驱动的自治和 zero-ETL 数据集成。了解如何使用 Amazon Redshift 构建数据网格架构,分析数据。

演讲精华

以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

亚马逊云科技的资深工程师Hippocrates Pande在一次关于Amazon Redshift演进的主题演讲中欢迎观众的出席。作为数千名使用Redshift的客户之一,Klarna公司的Francisco Juan也参加了此次活动。这一天标志着Redshift在2012年11月28日首次由亚马逊云科技推出,至今已过去了第11个年头。

Pande表示,Redshift是亚马逊云科技提供的一种数据仓库解决方案,其规模可高达百亿字节。在过去的11年里,Redshift已经发展成为一款多功能的工具,被数以万计的客户在各种不同的应用场景中使用。Redshift每天处理数百万亿字节的数据,并执行数十亿次查询。它支持跨不同行业和公司的关键业务决策和分析工作负载。

就在上个月,通过Amazon Aurora MySQL与Redshift之间的集成,Aurora实现了每分钟超过100万次交易,复制到Redshift的延迟低于15秒。这展示了Redshift通过接收实时数据流并实现快速洞察的能力来实现接近实时的分析。除了传统的SQL分析之外,许多客户还使用Redshift进行机器学习,每天执行数十亿的预测。

Pande展示了一些采用指标,这些指标量化了Redshift在过去十年中的巨大规模和增长。如今,数以万计的客户依赖Redshift每天处理数百万亿字节的数据,每天运行数十亿次查询,每周执行数万亿次查询。他强调,Redshift解决了从传统商业智能到接近实时决策到机器学习的许多独特使用案例。

为了解释Redshift的工作原理,Pande揭示了其内部结构。该服务包括两个主要层——计算层和存储层。Redshift利用大规模并行处理(MPP)架构,其中领导节点负责查询优化,计算节点负责分布式查询执行。

领导节点解析传入查询,创建高效的执行计划,并生成针对该查询的优化C++代码。然后编译代码,将其分发到计算节点,并执行以并行处理数据分区。诸如列式存储、数据压缩和局部计算之类的优化有助于加速此分布式查询处理。

潘德强调,基于云的原生架构使得Redshift相较于传统企业数据仓库更具灵活性。例如,对于未曾见过的查询片段,Redshift会将其转发给编译服务进行预编译,并在全球范围内进行缓存,从而提高后续查询的性能。这种优化使得缓存命中率从99.5%提升至99.96%,实现了性能的数量级提升。

接下来,潘德概述了推动Redshift发展的主要关注领域。首先是安全性和可用性。Redshift提供了强大的加密、访问控制、VPC支持以及备份功能来保护数据。最近推出的多Availability Zone特性通过在可用性区域之间自动进行故障切换来进一步提高可用性,实现多Availability Zone SLA下的99.99%正常运行时间。

其次,为了提高性能,Redshift采取了多种措施,如升级硬件、优化查询和重构存储层。根据亚马逊云科技内部基准测试,Redshift相较于其他云数据仓库,提供了40%至600%更好的性价比。

第三,Redshift具有灵活的扩展能力,包括存储容量和计算能力。Redshift管理的存储允许独立扩展资源。并发扩展会自动调配额外容量以应对使用高峰。无服务器产品提供了完全管理和自动缩放的集群。

第四,Redshift提高了易用性,通过自动化监控、调整、优化表设计和创建物化视图。自动表功能甚至可以自动提高查询性能,通过物理设计更改(如排序、分布样式和编码),使测试中的查询运行时间减少高达2倍。

最后,Redshift重点关注数据摄入。功能如流式摄入、与Amazon Aurora MySQL等数据库的集成以及从S3自动加载,旨在以最低ETL开销实现实时分析。

潘德详细介绍了Redshift的数据共享功能所支持的多集群架构。它允许部署多个独立的Redshift集群,这些集群可以共享对公共数据集的只读或读写访问。这有助于实现像数据网格这样的去中心化数据模式和像轮辐模式这样的将ETL工作负载与消费分开的模式。数千家企业已经使用数据共享来扩展分析工作负载。

弗朗西斯科·胡安来自Klarna公司,他在会议上分享了关于Redshift的经验。Klarna是一家拥有超过1.5亿全球用户的支付和购物服务公司。数据对于他们的业务至关重要,用于构建解决方案、预防欺诈和维护合规性。他们的Redshift数据仓库已经增长到超过5PB,每天执行200,000个查询。预计数据量每2-3年将翻一番,代表每年35%的增长。

胡安强调了在数据扩展到数十亿行和TB级别的表中时,保持稳定的快速查询响应时间的重要性。这支持实时商业智能仪表板和机器学习应用程序。起初,Klarna依赖一个用于所有工作负载的单一Redshift集群。但是,随着数据量的增长,查询性能下降。

关键工作负载(如监管财务报告)的长等待时间使得扩展改进成为必要。为了解决这个问题,胡安的团队进行了工作负载优化,实施了更好的SQL实践,优先处理关键任务,并向亚马逊云科技寻求帮助。

解决方案是采用Redshift数据共享,将用于ETL处理的集群与用于消费的集群隔离开来。这立即提高了对业务关键工作负载的性能和可靠性。胡安分享了来自利益相关者的反馈,他们表示Redshift再次达到预期后,他们的担忧得到了缓解。

总之,胡安强调了两个关键教训。首先,要与业务数据增长同步规划数据平台增长。其次,利用Redshift的最新功能(如无服务器和零ETL集成)来进一步提高可扩展性。

在超过2000字的内容中,总结了演讲者解释的关于Redshift的发展和功能的关键细节。他们强调了Redshift经过验证的可扩展性、采用、使用案例、架构、关注领域和新兴功能,以在大型数据集上实现分析。胡安的叙述还为不断增长的Redshift面临的挑战提供了现实世界的背景,以及如何利用新特性克服局限性。这个概述通过丰富的定量细节和指标,以叙事的形式捕捉了视频中的核心技术和客户视角。

下面是一些演讲现场的精彩瞬间:

领导者回顾了近年以来亚马逊Redshift的发展历程,承认所面临的挑战,但对其所取得的进步表示满意。

他们探讨了诸如数据网格和中心辐射式架构等多种数据仓库架构,这些架构实现了相对数据隔离和共享。

通过将Aurora MySQL与Redshift在存储层实现集成,实现了零ETL集成,从而创造了三赢的局面。

然而,旧式的Redshift技术已无法满足客户需求,让他们感到束手无策。

领导者解释道,通过消除浪费、实施治理、优先处理任务以及寻求亚马逊云科技的支持,可以帮助他们的数据平台实现成长。

客户对于Redshift集群间数据共享的反馈非常积极,这有助于提高性能和治理水平。

总结

引入了Redshift托管存储,这种设计将存储和计算分开,从而允许独立的扩展。这使得Redshift能够实现从TB到PB的线性可扩展性。

为商业智能(BI)工作负载提供了并发扩展,这在高峰时段可以自动调整查询容量,从而提供高达10倍的性价比优势,优于竞争对手。 推出了Redshift Serverless功能,这项功能可以自动分配和调整容量,用户只需按照使用量付费。 支持从零ETL复制,这意味着可以从如Amazon Aurora等数据库将数据复制到Redshift,从而实现接近实时的业务数据分析。

Klarna公司的Francisco Juan分享了他们作为Redshift客户的体验,他们管理着一个5PB的数据仓库。随着他们的数据量每年增长35%,Klarna在容量方面遇到了挑战。通过实施查询治理、调度优化和采用Redshift数据共享,他们实现了每天进行3倍更多的查询,并为关键工作负载提供了可靠的性能。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134812236

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

参考链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: