## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT303-What_s_new_in_AWS_Lake_Formation-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
首席数据官、数据平台管理员、架构师、所有者和消费者都在寻求简化数据访问权限和治理。Amazon Lake Formation 使集中管理、保护和全球共享分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)用例的数据变得更加容易。参加本次讲座,了解新功能、客户案例,以及如何充分利用 Lake Formation。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
在会议开始时,亚马逊云科技的Lake Formation和Glue数据目录产品经理Leon Dichter向与会者介绍了他自己。他欢迎各位参会者参加re:Invent,并表示,Lake Formation和Glue Data Catalog已经得到了广泛应用,几乎100%的参会者都在使用这些服务。
Leon解释说,作为亚马逊云科技数据治理愿景的关键组成部分,Lake Formation和Glue Data Catalog提供了数据发现、数据编目、数据安全和数据共享等功能。这些服务旨在解决四大痛点:捕捉不同的数据源、管理指数增长的数据量、控制更多用户的访问以及了解数据使用情况。Lake Formation和Glue Data Catalog提供了一种统一的方式来应对每个挑战。
Leon还分享了一个激动人心的消息,即Lake Formation和Glue Data Catalog现在已经在全球所有亚马逊商业区域中可用。这种广泛的可用性使得全球的客户可以轻松利用这些服务来实施数据治理。
接下来,Leon深入探讨了会议的第一个主题——发现和确保安全。他解释道,Lake Formation和Glue Data Catalog可以简化在一个地方发现数据、管理模式和应用权限的过程。
随后,亚马逊云科技的软件交付经理Preva Ariana Swami走上舞台,提供了更多关于如何将Lake Formation和Glue Data Catalog作为构建块用于亚马逊云科技DataZone的背景信息。DataZone提供了一个统一的数据目录和协调环境。她解释说,DataZone建立在商业数据目录的概念之上,允许用户从诸如Glue Data Catalog和Redshift等来源创建技术资产的抽象。然后,这些技术资产可以被组织成领域和项目,以匹配组织的业务本体。
Preva强调,在现代数据架构中,不同业务线希望自主定义数据产品、治理规则和业务本体。DataZone通过让数据生产者将数据集发布到消费者可以发现和订阅它们的门户中来赋予这种权力。在幕后,DataZone使用Lake Formation的访问控制来实现审批和权利。总的来说,Lake Formation和Glue Data Catalog为DataZone的统一数据协调提供了核心技术支持。
普雷瓦随后强调了Glue爬虫的一些更新,这些更新对于发现和新数据源的引入至关重要。如今,Glue爬虫支持自定义JDBC连接器的内置驱动程序,自动化分区索引以加快谓词下推速度,并与Lake Formation集成以简化访问管理。
此外,Glue数据目录增加了对新兴的开放表格式(如Apache Hudi、Iceberg和Delta Lake)的支持。这些格式在数据湖中提供了原生的快照和模式演进等交易功能。一旦纳入目录,这些表可以通过Lake Formation像任何其他表一样共享和保护。
普雷瓦指出,数据治理已成为大多数客户的首要关注点。为帮助将现有工作负载过渡到更细致的控制,Glue数据目录现在提供了一种混合访问模式。这允许资源同时使用传统的IAM策略和更细致的Lake Formation权限。客户可以在不中断现有作业和工作流程的情况下,逐步采用Lake Formation的安全模型。
莱昂接着讨论了Lake Formation如何与亚马逊云科技的IAM身份中心相集成。这使得客户可以使用诸如Okta和Azure AD等第三方身份提供者进行Lake Formation的精细访问控制。例如,可以将权限授予“leon@anycompany.com”这样的IAM主体。在底层,Lake Formation及其集成服务都理解这个用户身份,从而提供无缝的身份验证和统一的审计。
莱昂提供了一个端到端的工作流程示例。一个用户用他们的身份提供者凭据登录EMR Studio并请求数据。EMR Studio使用他们的身份从Lake Formation获取临时凭证来访问[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)。所有操作都在用户的实际身份下跟踪,简化了对谁、何时进行了哪些操作的审计。
转向下一个主题“连接和共享”,莱昂解释了Lake Formation和Glue数据目录如何通过连接不同的数据源帮助用户更快地获得洞察。
普雷瓦概述了Lake Formation专注于联盟如何推动这个互联生态系统的发展。作为一个例子,Lake Formation最近推出了对托管Redshift数据共享的跨地区和跨账户支持。这使组织能够在其数据仓库和数据湖下用一个共同的Lake Formation安全模型来统一数据。
在同一场景下,新的集成允许用户将Hive元存储和CloudTrail Lake数据作为本地的Glue数据目录表来访问。这种方式避免了数据重复,同时仍通过Lake Formation实现数据的发现和精细的访问控制。
Preva还强调了Glue数据目录现在提供的托管视图,包括可以根据不同查询引擎的细微差别定制SQL逻辑的"多方言视图"。这些视图提供一个抽象层,可以隐藏底层数据的复杂性,同时仍然保护敏感信息的访问权限。
Leon强调亚马逊云科技的开放生态系统承诺,并宣布了几项新的合作伙伴集成。如Collibra和Privacera这样的安全和治理平台现在可以通过Lake Formation在执行时执行其在用户界面中定义的策略。像Dremio这样的查询引擎可以在运行时访问Lake Formation权限以实施安全性。这些集成为客户在亚马逊云科技上运营数据治理提供了多种选择。
在联邦的主题上,Leon指出,对于[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)之类的Lake Formation集成引擎,已经启用了跨区域表访问。这允许引擎直接在地区之间直接访问元数据和数据,而无需复制,从而在全局范围内提供性能。
进入下一节课的主题围绕规模和优化,Leon宣布了新功能的一般可用性——亚马逊云科技Glue数据目录统计信息。这些统计数据使[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)和[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)等引擎的查询优化器能够自动生成最优查询计划。这消除了客户手动收集和维护统计信息的需要。
Preva概述了Lake Formation基于标签的访问控制,这简化了大规模上的权限管理。客户可以使用标签对数据进行分类,然后授予对这些标签的访问权限。一个新的委派管理功能允许数据生产者可以定义和管理他们的资源的标签,而不需要集中管理。
此外,针对Apache Iceberg表的自动化压缩已经在Glue数据目录中推出。这自动优化存储,通过在后台压缩小文件来加速查询。
在审计和监控方面,Preva引入了一个新的只读的"数据湖审计员"角色,让用户在不授予可变的特权的情况下监控Lake Formation权限和使用情况。这个角色使得能够在去中心化的数据网格架构内监督数据访问。
普雷瓦注意到,为了提高对Lake Formation和Glue数据目录操作的深入了解,正加强审计功能。随后,莱昂欢迎杜克能源公司的企业架构师Brett Alford加入讨论,探讨他们如何将Lake Formation和Glue数据目录应用于其业务。Brett介绍了杜克能源公司如何通过云计算、数据分析和人工智能实现现代化的过程,以便提供清洁能源并改善客户体验。为了实现这一目标,他们需要可扩展的数据基础。
据Brett解释,杜克能源公司采用了数据网格方法,构建了一个与其内部业务领域一致的非中心化数据产品。Lake Formation和Glue数据目录为他们提供了核心数据管理和治理功能,支持这种架构的运行。
Brett详细描述了他们的实施过程,包括创建与内部业务领域一致的非中心化数据产品的生产者账户、负责处理安全策略的中心治理账户以及访问共享数据的消费者账户。清单中定义了共享资源,并使用Terraform自动化进行部署。所有的更改都需要经过审核,并将同步更新至商业元数据目录。消费者可以通过自助服务工作流程申请访问,Lake Formation将自动执行权限检查。
最后,Brett强调,已经在由Lake Formation驱动的新数据网格上交付了数十个数据产品。未来的主要关注领域包括扩大数据共享、探索新的Lake Formation功能和追求自动扩展及高可用性。
莱昂继续回顾了会议的结尾部分。他对与会者的参与表示感谢,并邀请他们通过活动调查表提供反馈。他强调,Lake Formation和Glue数据目录提供了强大的、可扩展的数据治理功能,如杜克能源公司等客户正将其纳入现代数据架构中加以应用。最后,他指出,与会者可以在相关会议上了解亚马逊云科技如何帮助客户利用数据进行创新。
**下面是一些演讲现场的精彩瞬间:**
领导者宣布了亚马逊云科技在Lake Formation和Glue数据目录方面的创新功能。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_0.png)
为了更精确地控制复杂的结构化数据集,亚马逊云科技已经添加了嵌套数据类型的权限。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_1.png)
如今,Lake Formation已与亚马逊云科技IAM身份中心集成,有效地解决了访问控制和审计的重要问题。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_2.png)
另一方面,亚马逊云科技Glue数据目录现已支持Apache Iceberg表的自动化压缩,从而简化了小文件管理并优化了查询性能。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_3.png)
此外,亚马逊云科技领导分享了杜克能源公司清洁能源转型的关键事实以及其IT现代化目标,这些目标得到了亚马逊云科技云服务的支持。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_4.png)
为了实现集中管理,建立了关键服务治理账户,并使用Terraform企业将元数据和标签应用于中央和产品账户。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_5.png)
亚马逊云科技领导者鼓励观众参与问卷调查,参加“谁是您的亚马逊云科技数据超级英雄?”活动,以帮助亚马逊云科技提供更好的内容。
![](https://d1trpeugzwbig5.cloudfront.net/ANT303-What_s_new_in_AWS_Lake_Formation/images/rebranded/ANT303-What_s_new_in_AWS_Lake_Formation_6.png)
## 总结
亚马逊云科技的Lake Formation和Glue数据目录在云端协助企业发现、保护、连接、共享、扩展、优化、审计和监控数据。来自亚马逊云科技产品管理的Leon Dichter详细介绍了四个主要功能领域:发现与安全、连接与共享、扩展与优化以及审计与监控。
在发现与安全方面,Lake Formation与亚马逊云科技的IAM身份中心紧密集成,从而能够使用来自外部供应商(如Okta和Azure AD)的身份进行精确访问控制。此外,爬虫功能得到增强,可自动创建分区索引并与Lake Formation集成以实施管理访问。一种新的混合访问模式允许逐渐采用Lake Formation的精细访问管理,同时与现有的粗略权限共存。
在连接与共享方面,Lake Formation负责管理Redshift数据共享,从而实现数据湖和仓库的统一管理工作。Hive元存储联邦和与CloudTrail的集成可用于追踪外部资产。Lake Formation还引入了一等视图,支持基于计算引擎的不同SQL方言。
在扩展与优化方面,Lake Formation通过标签委派实现分布式标签管理,使得数据所有者可以定义和分配标签。Iceberg表的自动化压缩可以通过减少小文件来优化存储空间。此外,一个全新的只读管理员可以提供对Lake Formation权限和活动的审计可见性。
来自杜克能源的Brad Alford分享了他们如何利用Lake Formation实现跨域拥有的网格风格数据产品的分布式数据治理。Lake Formation简化了所有权问题,集成了各种系统,并实现了可靠和稳健的数据访问。
总之,Lake Formation具备在存储、引擎和组织中大规模发现和治理数据资产的能力。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")