## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
Apache Iceberg 已经成为事实上的表格式标准。在这个演讲中,Iceberg 的联合创造者将描述一个基于 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中的 Iceberg 表存储的 亚马逊云科技 引用架构,用于分析和 AI。该架构连接了诸如 [Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)、[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)、[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail) 和 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 等计算服务,并通过 [Amazon Kinesis](https://aws.amazon.com/cn/kinesis/?trk=cndc-detail)、Kafka 和 Flink 提供流支持。Iceberg 表规范和 REST 目录协议提供了通用兼容性,而 Tabular 的托管 Iceberg 服务提供了诸如成本和性能优化以及 RBAC 安全性等功能。此外,还将学习实现此架构的最佳实践。这个演讲由 亚马逊云科技 合作伙伴 Tabular 提供。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
演讲者在亚马逊云科技会议上首次亮相,宣布他将建立一个分析平台,该平台将充分利用亚马逊云科技的各种服务,如[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)、Apache Iceberg、亚马逊云科技Lambda、[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)、[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)、[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)、[Amazon Kinesis](https://aws.amazon.com/cn/kinesis/?trk=cndc-detail)和Amazon SSO。这些服务将与Spark、Flink、Kafka Connect等计算引擎相结合,实现可扩展的中央存储。他强调,他们将为观众介绍Apache Iceberg的概念、为何起初并未充分重视这一技术,但实际上,Iceberg和基于表格的平台已经实现了模块化数据架构的优化。此外,他们还展示了如何利用Tabular技术简化模块化架构在亚马逊云科技服务上的大规模部署。
在更深入的阐述中,演讲者提到Apache Iceberg是他和他的联合创始人在Netflix工作期间遇到的解决方案。在那里,他们运营着庞大的数据和架构,并将[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)用作真实的数据来源。这突显了Hadoop生态系统的问题和局限性,尤其是在处理Hive表时。Hive表采用简单的模型,通过仅列出目录来追踪数据并提供表格的抽象。然而,这种方法在处理100个文件时会引发一系列关键问题。
首先,由于文件列表只能告诉你表中有哪些文件,所以无法以事务方式同时使100个文件出现在索引中。其次,虽然使用[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)而非HDFS提供了惊人的可扩展性,但也带来了更高的延迟。因此,在列出1000个目录时,会产生巨大的性能和扩展挑战。最后,数据工程和生产力方面也存在诸多挑战,这是推动Iceberg发展的主要动力。如果数据工程师不能依赖正确性保证,即更改一个过程不会导致另一个过程产生错误结果,那么数据的可信度就会降低,从而影响其实用性。为了建立信任,需要找到更高效的方法来减少查询的数据读取并提高数据工程师的性能。此外,Hive表的行为并不像真实的表那样,例如,删除并重添列可以恢复三个月前的旧数据,这是一个严重的问题。
他们逐渐意识到,所有这些复杂的问题都围绕著Hive表格功能的局限性相互交织。由于Hive无法正确处理具有数百个文件的方案,所以他们决定通过开发Iceberg(一种基于开放表标准的解决方案)并引入关键的SQL特性(例如ACID语义、分区、安全的模式演进等)来解决问题。这将给数据湖带来事务性的语义,这是一个比他们最初预期的更具创新性的成果。这使得可以使用Flink和Spark等工具在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)上作为通用分析存储层安全地使用。"
"这种模块化的数据架构比过去的方法更为合理。基于[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)作为基本存储,Iceberg提供了一个表抽象和通用数据格式,可以在诸如Spark、Flink等引擎上使用。您可以在数据库之间共享一个具有标准化表的中央数据存储。组件使用开放标准进行连接。通过声明式的方式管理并更新数据,从而实现更高的架构整合度,而不是在不同的引擎中形成孤立的部分。"
"一些重要的原则包括使用声明式方法适当地配置引擎,并在表级别声明策略,以便引擎了解如何行为,这对于安全性至关重要。应该将安全性设置在数据级别而非引擎访问级别,这样策略就可以在七个不同的系统中保持一致,而无需后续对八个系统进行更新。"
"Tabular已经在亚马逊云科技内部及外部实施了这种架构,并利用了亚马逊云科技的服务,如[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)、Amazon Lambda、[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)、[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)、[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)、[Amazon Kinesis](https://aws.amazon.com/cn/kinesis/?trk=cndc-detail)和Amazon SSO。演讲者将展示[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)底层的Iceberg表,以及由Tabular提供的目录、优化、访问控制等功能。各种计算引擎,如EMR、Athena、Redshift、Flink、Snowflake和Databricks都可以使用。"
"在Tabular的Iceberg平台上,他们提供了Iceberg REST目录,使引擎能够用相同的语言讨论表和安全性。Iceberg表存储在您的S3存储中。还包括统一的访问控制以及与引擎的集成。直接的自动优化、文件加载、CDC镜像等功能让工程师的工作变得更加轻松。
在这次简短的演示中,演讲者首先向观众展示了他之前设置的一个过程,即如何在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)桶中创建一个表格仓库。接着,他将Athena数据源连接到表格Lambda,使得1.24亿行的出租车数据表可供Athena团队进行访问和分析。在表格用户界面中,他使用了Amazon SSO技术,将IAM角色直接映射到表格角色,以便在查询时为用户分配权限。通过运行一个查询,他成功统计了出租车数据集中超过1.24亿的行数。此外,他还提到了在松鼠人口普查表中演示访问控制的功能,但因时间原因未能完成。
总的来说,演讲者阐述了Apache Iceberg如何将事务语义和模块化架构引入到基于[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)的数据湖中。基于此,Tabular构建了一个完整平台,用于在亚马逊云服务上使用各种服务、引擎和组件构建分析管道,同时将Iceberg作为中心的存储层——使得分析开发的流程变得更加简便高效。简短的演示展示了如何连接Athena并查询由Tabular管理的Iceberg表。
**下面是一些演讲现场的精彩瞬间:**
领导者们今日将探讨关于亚马逊云科技的一些重要议题。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__0.png)
亚马逊云科技的Redshift确保了数据的准确性,让数据工程师对其数据充满信心。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__1.png)
通过Iceberg技术将交易行为整合到数据湖中,这一创新使得诸如Flink和Spark等分析引擎能够与安全地使用对象存储相结合。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__2.png)
在re:Invent上,亚马逊云科技强调了各种服务(如Redshift、EMR和Snowflake)之间的无缝集成,这些服务都是通过Iceberg等开放标准实现的。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__3.png)
亚马逊云科技正基于S3构建一个新的表抽象层,以便在各种应用程序中实现单一数据存储的跨平台使用。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__4.png)
模块化的数据架构允许各个组件像乐高积木一般组合在一起,通过开放式标准实现无缝连接。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__5.png)
亚马逊云科技的领导者推出了一系列新的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)服务,旨在帮助企业大规模地构建、训练和部署ML模型。
![](https://d1trpeugzwbig5.cloudfront.net/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular_/images/rebranded/ANT101-S-How_to_build_a_platform_for_AI_and_analytics_based_on_Apache_Iceberg__sponsored_by_Tabular___Tabular__6.png)
## 总结
Apache Iceberg,由Netflix的Ryan Blue和Dan Cech创建的项目,旨在解决将[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)用作数据湖时所面临的主要问题,如原子性不足、性能差以及工程挑战。通过遵循SQL原则(如ACID事务和分区),Iceberg项目在S3之上实现了一个模块化架构,其中的组件可以无缝连接。
基于Iceberg项目的表格构建简化了在Amazon Web Services上部署这种模块化架构的过程。他们的平台提供了目录、访问控制、优化和维护功能,使得Athena、EMR和Redshift等引擎可以使用相同的存储。一个演示展示了如何将数据加载到Iceberg表的表中,通过Athena进行查询,并将更改镜像到Redshift。
Iceberg项目和表格构建使得能够在S3上构建健壮且高性能的数据湖,并可被任何处理引擎访问。模块化的架构和组件之间的插拔能力提供了灵活性并降低了工程复杂性。苹果Apple和领英LinkedIn等公司已经采用了Iceberg项目的开放标准。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")