## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
组织使用开源数据解决方案为团队提供最新的技术,并构建具有最大灵活性的应用程序。[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail) 和 [Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail) 是完全托管的分析服务,使其能够更快、更容易地运行开源框架,例如 Apache Spark、Trino、Hudi、Iceberg 等。加入本论坛,了解亚马逊云科技团队如何加快数据科学的采用,增强实时数据处理能力,为 AI/ML 作业运行自定义数据准备,以及构建 PB 级的低延迟 SQL。了解最新发布的产品,以及亚马逊云科技如何通过优化的运行时和领先的性价比,继续以更高的可靠性和弹性加速见解。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
在2022年re:Invent上,亚马逊云科技分享了关于'[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)和[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)的最新动态'的主题演讲。这场会议由亚马逊云科技的开源数据分析产品负责人Benita Anant主持,她热情地欢迎观众参与此次分享。她表示很高兴能向大家介绍过去几个月里工程团队精心准备的一系列新功能特点。同时,她也承认了全年从客户那里收到的真诚反馈,这些反馈有助于制定未来的发展道路。她的目标是提供用户一直期待的高需求功能的更新。
Benita解释道,早在今年早些时候,亚马逊就将EMR和Athena团队合并成了一个统一的组织。这一组织变革的背后原因是促进两个产品的紧密整合,以提高更高效地支持各种客户需求的能力。她还暗示,到2024年,亚马逊云科技各团队之间的统一和整合主题将继续推进。
亚马逊的云中心大数据分析平台由EMR和Athena组成,旨在实现大规模petabyte级别的分布式数据处理。这些服务提供了丰富的开源应用选择,包括超过20个不同的框架,如Apache Spark、Hive、Presto等。
客户的反馈塑造了指导EMR和Athena创新的四个主要支柱:
1. 支持热门框架的最新版本,如Apache Spark
2. 支持广泛采用的开放式表格式,如Apache Iceberg、Delta Lake和Hudi
3. 通过优化EMR和Athena运行时,降低成本并提高性价比
4. 提供一个灵活且多功能的平台,支持多种工作负载,如批处理、流处理、交互式SQL和多种部署选项
亚马逊云科技的EMR的一大优势在于其高度优化的Spark运行时,这是由亚马逊云科技的工程师们进行调优以实现最佳性能。相较开源社区版本,最新版本的EMR Apache Spark运行时的性能提升了5.15倍。随着Apache Iceberg的广泛应用,EMR团队使用Iceberg 1.4.0.0进行了性能测试,结果显示相对于开源Spark,性能提高了14%。在保持100%开源兼容性的同时,实现了这种程度的优化,使得在亚马逊云科技上可以完全移植。
亚马逊云科技推出了针对大数据工作负载定制的新EC2实例类型:M7g、C7g和R7g,这些实例采用了最新的Graviton 3处理器,具有64位ARM架构。将EMR Spark运行时与C7g Graviton 3实例结合,性能最高可提升20%,成本降低15%,相较于上一代Graviton处理器。
另一个令人兴奋的更新是EMR对新发布的S3 Express One Zone存储类的支持,它承诺提供2-4倍更快的数据访问速度。EMR团队进行了测试,验证了通过利用这个新高速对象存储层次可以实现显著的性能提升。
Benita总结了EMR的三个主要部署选项,以强调运行大数据工作负载的灵活选择:
1. EMR EIS - [无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)EMR选项,可实现数秒内快速启动和自动化扩展。集成CodeWhisperer,一款基于开发者在EMR Studio笔记本中输入的注释和代码片段提供实时建议的代码AI产品。还支持与亚马逊云科技Step Functions的工作流程编排集成。
2. EMR on EC2 - 最全面的功能选项,提供了最丰富的开源框架和可选的EC2实例类型。
3. EMR on EKS - 对于已经使用Kubernetes和EKS的组织最好的选择,允许将EMR集群作为容器运行,利用EKS的多AZ弹性和自动扩展功能。
她提到,EMR EIS已经成为亚马逊云科技增长最快的[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)服务之一。团队正在大力投资于这个部署模型,以通过消除操作开销来简化客户的分析工作负载。
在过去的一年中,EMR EIS的主要功能包括对Graviton 2的支持、自定义Docker镜像、通过CloudWatch实现的可视化作业成本、使用Secrets Manager进行密钥管理、与Step Functions的集成以及用于交互式分析的EMR Studio。预计在2023年,还将推出更多EIS功能,例如改进的结构化流和Spark 3支持。
针对EC2上的EMR,最近发布了更新后的框架,包括自动优化集群大小和Spot实例选择算法,这使得集群启动速度提高了35%,并且提供了现代化的控制台体验。此外,还为新创建的集群添加了高可用性支持,以防止单点故障。为了提高2023年的用户体验,亚马逊云科技正在大量投资数据分析服务领域,并计划进行更多的用户界面增强。
印度尼西亚最大的电信提供商Telkomsel的公司战略和规划副总裁Mohammed Rehan受邀分享了他们如何通过亚马逊云科技和EMR来现代化其关键大数据平台的过程。Telkomsel通过网络基础设施处理超过15亿用户的海量数据,每月超过1.4千亿字节。在两年的时间里,他们已经开始了云端之旅,并由一个云卓越中心团队负责推动采用。
他们将大型运营数据存储(ODS)工作负载迁移到了EC2上的EMR和Graviton上,为许多关键业务应用程序提供数据支持。这涉及到了每天7TB的数据摄入,并要求在规模上支持每秒1000次查询的亚秒级响应时间。虽然他们之前的基于Spark和Impala的自有Hadoop堆栈满足了性能需求,但缺乏可扩展性。通过迁移到EMR,他们实现了与之前环境的开源兼容性,同时提高了查询性能和资源利用率。Graviton实例进一步优化了成本,使得总体节省达到了60%。开发者的工作效率也提高了5倍。
迁移到EMR使他们可以更频繁地进行批量处理,从每天一次增加到每小时一次,大大加速了业务洞察的数据可用性。相较于自管Hadoop,EMR的自动化和维护简便性还降低了操作开销。
雷迪卡·拉维·拉拉(Radhika Ravi Rala)是EMR的主要产品经理,她详细介绍了近期为EKS上的EMR推出的增强功能。这些功能允许在Kubernetes上运行开源大数据框架,如Spark,而无需承担管理容器和基础设施的负担。强调的关键好处包括在现有的EKS集群上整合工作负载、利用EKS的多AZ弹性恢复能力、使用Spot和Savings计划优化成本等。
企业目录与EMR的本地LDAP单一登录整合是通过使用Lake Formation对EMR进行细粒度访问控制的实现,包括表、列、行和单元格级别的控制。此外,通过Trusteed Identity Center的联邦功能,实现了EMR Studio、EMR集群和其他分析服务之间的单点登录。总的来说,演讲者表示,随着EMR和Athena在云端的发展,它们正为客户提供更灵活、高性能和安全的大数据分析提供了更多的可能性。亚马逊云科技内这两项服务的整合,结合新的实例类型、存储选项、部署模型、框架和管理能力,使得组织能够以前所未有的方式进行创新并从中获取数据的价值。
**下面是一些演讲现场的精彩瞬间:**
领导者感谢观众提供的反馈,并承诺会针对这些需求进行功能更新。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_0.png)
客户喜欢在工作负载上使用EKS,这样可以简化基础设施管理,提高资源利用率,并充分利用诸如现货实例和节省计划等成本优化措施。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_1.png)
新增的自动扩展功能允许容器根据需要动态调整CPU和内存资源,以便更好地满足工作负载的需求,而无需手动进行调整。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_2.png)
Athena查询现在可以通过[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail) Studio运行,为使用该工具的分析人员带来更简洁的操作体验。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_3.png)
EMR现已与LDAP完成集成,实现了无缝的认证过程,使得应用程序能够即时登录而无需额外的人工配置。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_4.png)
亚马逊云科技Identity Center的可信身份传播功能使企业身份能够在亚马逊云科技的各种分析服务(如Redshift、QuickSight和Glue数据目录)上得到验证。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_5.png)
亚马逊云科技Lake Formation现已支持对Hudi、Iceberg和Delta Lake等开源表格式数据的访问、筛选和保护功能。
![](https://d1trpeugzwbig5.cloudfront.net/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena/images/rebranded/ANT204-What_s_new_with_Amazon_EMR_and_Amazon_Athena_6.png)
## 总结
Ant204是2022年亚马逊云科技re:Invent上关于[Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)和[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)的新功能和特性的演讲。在这次演讲中,Benita Anant首先强调了AI和数据如何改变企业的现状,并指出EMR和Athena旨在提供一个统一的数据分析平台来支持这一变革。她详细阐述了他们的工作重点,包括在90天内支持最新的开源框架,优化性能和成本,提供多样化的工作负载和部署选项,以及提供治理和安全保障。
EMR的重要更新包括运行时性能的改进,对新型EC2实例类型的支持,与S3 Express的集成以实现更快的分析速度,以及新的EMR[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)功能,如与CodeWhisperer集成的EMR Studio。此外,EKS上的EMR还支持自动缩放、Apache Flink和监控集成等功能。
Mohammed Rehan(来自Telkomsel Indonesia)分享了他们将关键数据平台迁移到EMR的过程中所取得的绩效和成本优化成果。
Radhika Ravi Rala详细介绍了Athena的一些新功能,如用于工作负载控制的预配置容量,用于更快查询的引擎优化,对新S3层的支持,以及与EMR Studio的集成。同时,她也概述了EMR和Athena的一些新安全功能,如LDAP集成,从亚马逊云科技身份中心的可信身份传播,以及细粒度的访问控制。
总之,这次演讲展示了EMR和Athena在亚马逊云科技上实现更快、可扩展性更强、更安全的数据分析方面的重要新功能。演讲者们强调了他们致力于支持最新的开源技术,优化价格性能,并提供统一的分析平台。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")