数据共享让Amazon Redshift数据仓库轻松协作

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 组织希望为他们的团队提供简单安全的方式来满足ETL服务级别协议,优化成本,并在实时数据上进行协作。通过[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)数据共享提供的多数据仓库写入功能,您可以同时使用多个仓库向同一数据库写入。加入这个课程来了解您如何通过这个新推出的功能保持ETL作业按时可预测地完成,与多个团队就实时数据进行协作,并更好地优化您的成本。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 亚马逊云科技的Redshift数据共享:多集群架构的新篇章" 在re:Invent上,亚马逊云科技的Redshift高级首席工程师Sudip Chakrabarti发表了一场关于Redshift数据共享新功能的启发性演讲。这一新功能标志着Redshift支持多集群架构的进一步发展,有助于客户更广泛地拓展其工作负载。 Chakrabarti首先强调了当今世界数据的重要地位。据IDC报告,过去两年里已经产生了超过90%的今天数据。Forrester的一项研究还发现,如果企业能够有效地利用数据,他们实现20%以上收入增长的可能性将提高8.5倍。然而,Accenture的一项研究发现,只有32%的组织能够充分利用他们的数据。Redshift的目标正是帮助企业更轻松地从数据中提取价值。 数据的竞争优势表现在各种方面,如个性化客户体验、优化库存和供应链、提高应用程序性能和渲染以及优化营销活动。Redshift位于客户数据之旅的核心位置,提供一个完全管理的、AI驱动的、可扩展的云数据仓库来运行来自不同来源的数据的分析,如交易、点击流、遥测、应用程序日志等。它支持丰富的SQL分析、[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载、Spark工作负载等等,具备一流的安全性、治理和合规性。熟悉的SQL界面、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)基础设施和价格性能领导力使得Redshift成为了首选。 Chakrabarti展示了一个图表,对比了Redshift与其他基于行业标准的TPC-DS 3TB的云数据仓库竞争对手在开箱即用时每美元的性能优势。结果显示,Redshift在价格性能方面优于竞争对手高达66%。在实际运行工作负载时,通过AI驱动的优化,这种优势将进一步扩大。对于并发查询工作负载(如仪表板),Redshift的成本效益最高可达到替代品的7倍。随着并发性的增加,Redshift的价格性能表现将更加出色。 来自各行各业的企业,如麦当劳、三星和华夏银行等,每天都在使用Redshift来处理EB级的数据。 Redshift允许自动化摄入来自各种来源的数据(如S3中的文件)、流数据(如Kinesis和Kafka)以及数据库(如Aurora、RDS和DynamoDB),从而实现数据分析。它还支持与SageMaker、预测和其他ML服务的集成,实现零ETL复制。 作为亚马逊云科技的数据仓库服务,Redshift提供了自己的托管存储,能够处理超过千万GB的数据,同时支持多种数据格式的查询,如Parquet、ORC和JSON。通过与Spark集成、EMR、Athena和Glue等服务,可以实现对Redshift数据的实时分析。 随着Redshift的数据量和应用场景的扩大,客户需要了解如何实现扩展。起初,Redshift只有一个集群,但随着需求的变化,客户需要创建多个集群并在它们之间移动数据。为了解决这个问题,Redshift在2-3年前推出了数据共享功能,实现了在不跨集群移动数据的情况下共享实时交易数据的多集群架构。 通过数据共享功能,生产者集群可以共享表、模式和视图等对象,消费者可以通过命名空间访问这些对象,而跨集群查询则从生产者获取元数据并从Redshift存储中获取数据。这种架构目前每天有超过1000万的跨集群和账户查询。 今年的改进显著提高了读取性能,例如初始访问速度、跟上数据变化的速度、运行更多并发查询以及调整消费者的大小。一个典型的客户案例是健身设备公司Peloton,他们通过使用Redshift网格架构每年节省了30万美元的成本。 然而,尽管数据共享解决了读取扩展的问题,但客户还需要解决写入和ETL工作负载的扩展问题。他们面临的挑战包括: - 在一个集群上运行的竞争ETL作业可能会相互干扰,导致延迟。因此,很难优化集群大小和定价。 - 像客户360这样的多团队工作流程需要更改数据捕获、事件触发器和协调来共享数据。这意味着更多的服务将带来更多的操作复杂性。 生产者集群一如既往地共享对象并授权消费者访问权限。消费者通过查询从生产者处获取元数据,并在本地执行,直接将数据写入Redshift存储,而非经由生产者。生产者最终提交数据,使其变得可见。 消费者利用自己的计算资源执行重查询,而生产者则掌控权限和事务语义。这允许独立扩展ETL计算。 为了确保事务的正确性和并发性,多数据仓库写入采用快照隔离方式,这是[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)工作组的默认设置。这消除了读写之间的争用,从而实现了更好的并发性和扩展性。 其他增强功能包括在共享数据库的角色中授予对象的详细权限,使用新的USE命令进行多语句事务处理,以及直接从BI工具连接到共享数据库。 适用场景包括:Peloton可在一个预配置的集群中接入区域客户数据,同时一个ETL[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)集群加载新的MIA客户数据,仅授予所需对象的权限。一家媒体公司可将小型每日ETL工作负载隔离到一个64节点的集群,而一个更大的每小时网络分析工作负载可以使用一个独立的32节点集群。计费与性能保持可预测。一家企业可通过销售、营销和服务团队通过写入共享的Redshift生产者集群来构建客户360视图,而非采用复杂的变更数据捕获方法。 演示展示了从生产者集群创建数据共享,授予权限,然后消费者创建临时表,以多语句事务的方式摄取和转换900,000行数据。 总的来说,通过Redshift数据共享实现的多数据仓库写入提供了易于扩展的ETL工作负载跨越集群隔离成本以及实时的跨职能团队协作。这代表了Redshift在针对所有数据分析数据的灵活、高性能和经济高效的多集群架构方面的一步重要发展。 **下面是一些演讲现场的精彩瞬间:** 我们将继续探讨适用于Redshift的多集群架构的未来发展,以满足客户需求并在工作负载中实现更广泛的扩展。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_0.png) 亚马逊Redshift是一款完全托管式的人工智能数据仓库,旨在提供数据洞察能力并以支持分析、[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和其他功能。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_1.png) 借助Redshift数据共享功能,用户可以在多个仓库之间实现实时的数据查询,从而简化工作负载的扩展过程。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_2.png) 在讨论中,演讲者重点关注了针对亚马逊Redshift数据共享查询性能的优化。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_3.png) 演示文稿展示了一个名为Peloton的公司如何通过采用多集群Redshift架构成功降低成本并提高性能。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_4.png) 然而,演讲者也指出了在处理大量高频数据并将其输入到[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)时,预测作业完成时间的难度以及在不同工作负载间调整集群大小的复杂性。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_5.png) 在整个演讲过程中,演讲者通过不断切换幻灯片来强调重点。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing/images/rebranded/ANT351-Multi_data_warehouse_writes_through_Amazon_Redshift_data_sharing_6.png) ## 总结 根据工作负载需求,可以灵活地使用不同类型和大小的集群来扩展ETL工作负载。这种设计使得工作负载具有可预测性并能有效控制成本。通过简单的操作,用户可以在不同团队、账户和区域之间实现实时数据的协同工作,无需依赖复杂的ETL管道。这个功能的工作原理是这样的:消费者集群负责执行查询并处理数据写入Redshift存储的任务,而生产者集群则负责处理访问控制以及执行最终提交,从而使数据变得可见。其主要优势在于工作负载的隔离、灵活的扩展能力以及对实时交易数据的跨团队协作的支持。演示结束时,通过展示如何在预配置的集群和[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)工作组之间进行配置,进一步强调了其优势。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭