## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
有效的存储性能和成本优化需要根据工作负载要求采用不同的方法。借助 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail),您可以经济高效地从任何地方存储和检索任何数量的数据。了解为您的工作负载(从数据湖分析到大规模[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)培训)选择成本优化的最佳 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储类的关键考虑因素。探索 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 如何以低成本支持云端一些对性能最敏感的工作负载。最后,了解 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 功能如何帮助降低存储成本、提高工作负载性能,以及将成本节约重新投资以推动创新和业务转型。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
亚马逊S3的产品经理安德鲁·科茨在一场信息会议上对所有与会者表示欢迎。他的到来得到了S3资深工程师卡尔·萨默斯(Carl Summers)和Anthropic公司资深系统负责人诺瓦·德·萨马(Nova De Sarma)的陪伴。安德鲁明确指出,本次会议的核心任务是向观众阐述可采取的建设性步骤,以提高S3上的数据存储和可访问性。这将涉及衡量和监控存储、调整数据读取以提升性能,以及在高并发请求情况下实现扩展。最终目标是让观众掌握优化S3成本和性能的实际技巧。
安德鲁强调,数据正以惊人的速度增长,据IDC预测,2022年产生的数据量已超过100泽字节。在如此庞大的数据增长背景下,公司致力于以成本效益的方式存储、处理和分析这些数据。在处理大量数据时,公司通常会围绕三个核心要素构建战略:明确工作负载需求、了解现有存储情况并获得洞察,以及优化存储和调整成果。
为了明确工作负载需求,需要了解使用情况及其前提条件,如数据有效期、所需的性能和弹性。这有助于优化S3的使用。获取存储洞察是实现目标所必需的。随着数据的激增,跨账户和地区的可见性变得至关重要,以便分析使用情况并取得采取行动的见解。S3 Storage Lens提供了这种全面的可见性,提供了一个展示组织范围内使用的仪表板。它可以深入分析到前缀级别的指标。最近推出的S3 Storage Lens还允许按标签或对象属性聚合指标。此外,它在性能故障排除中展示了请求计数和活动数据量等指标。Storage Lens能够揭示成本优化机会,例如识别不完整的分片上传,因为这可能导致额外费用。通过生命周期策略,可以中止不完整的上传以避免不必要的费用。
非当前对象版本也会产生费用,但可能并非必要。通过存储透镜(Lens)来观察非当前版本的存储占比,从而判断优化潜力。为了获取对象级别的洞察,S3 Inventory会提供对象和元数据列表,包括名称、大小和加密状态等信息。这可以通过[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)使用SQL进行即席查询,以便发现大量或过时的非当前对象。
S3存储类别与其访问模式相匹配。频繁访问适合S3 Standard,这是延迟最低的选择。不频繁访问适合S3 Standard-Infrequent Access,以节省成本。季度访问适合S3 Glacier Instant Retrieval,其低成本且快速检索。长期归档适合S3 Glacier Flexible Retrieval的批量检索模式。S3 Glacier Deep Archive对于归档来说具有最佳的成本效益。
在选择归档选项时,S3 Glacier Flexible Retrieval的恢复时间今年提高了85%,现在250GB的数据在30分钟内完成,而不是之前的3-5小时。这对于像Ancestry这样的客户来说非常有帮助,因为他们可以快速从Glacier恢复图像数据,以训练[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)手写识别模型。
选择存储类别取决于访问频率、存储期限和检索需求。不频繁访问类别具有更好的检索成本和最低存储期限。对于小对象来说,类别之间的转换成本更高,并且存储期限会影响盈亏平衡。
生命周期策略会根据年龄在不同类别之间自动转换。这可以有效地管理可预测的访问模式。例如,CT扫描——初始访问频繁,然后较少,适合分层类别。
对于不可预测的访问模式,选择存储类别具有一定的挑战性。S3 Intelligent-Tiering会监控访问情况,将30天内未访问的对象转移到更低成本层,从而自动优化成本。Illumina利用这一功能处理基因数据,成本降低了60%,而性能不受影响。这使得S3客户节省了超过S3 Standard 20亿美元的支出。
就性能而言,S3能够按需扩展至每秒百万请求。关键结构设计旨在最小化延迟并最大化吞吐量。因此,正确组织键非常重要。如果应用程序按天编写文件夹,请求将集中在当天的文件夹上。使用前缀为每个对象进行更有效的分配请求。
为了减少延迟,我们需要根据生产环境的需求指标调整客户端的超时设置,而非依赖S3的默认设置。通过针对生产环境的请求指标设置超时,我们可以取消并重试缓慢的异常值。为了提高传输效率,我们可采用多部分上传和范围获取技术以并行传输大文件。同时,开启多个连接并限制每个IP地址不超过5-10个,以便重复使用它们。持续监控性能,以便移除不佳的连接。此外,我们为重试操作添加了指数退避和抖动机制。借助亚马逊云科技通用运行时(CRT),这些最佳实践将自动实施,从而使性能提升2-5倍。如今,CRT已成为EC2加速实例类型的亚马逊云科技命令行和SDK的默认传输库。使用文件API的应用程序现可通过Mount Point for S3高效地将文件调用转换为S3 REST API。将数据缓存至本地存储可以避免重复访问S3,进而提高诸如[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型训练等工作时的吞吐量2.5倍。在此过程中,安德鲁还邀请了Nova De Sarma(来自Anthropic的代表)上台发言。Nova阐述了Anthropic的目标,即通过可解释性、价值对齐和责任部署的研究,确保人工智能对社会有益。Anthropic在S3中存储超过200PB的数据,充分利用了S3的弹性和智能分层的价格优化功能。他们实现了800Gbps+的训练数据传输速率,以及2Tbps的检查点加载速率。智能分层在不影响性能的前提下降低了存储成本。2021年,他们的S3使用量增长了6倍,大部分数据现已位于智能分层中,其中40%位于深度存档中。他们的ML管道使用Spot EC2进行数据处理,并将结果写回S3,供加速训练实例使用。检查点保存在S3中,并在出现故障时从中恢复。他们还采用大型对象、范围请求、多个前缀、CRT和异步数据队列等优化策略以提高S3的使用效率。总之,安德鲁强调了观众应关注的重要方面:探索S3 Storage Lens以了解使用情况与成本;运用智能分层优化不可预知的访问需求;启用CRT以提升性能;并利用S3支持其他服务,例如Athena和SageMaker。
**下面是一些演讲现场的精彩瞬间:**
亚马逊云科技的领导热情欢迎Anthropic的Nova De Sarma上台发表演讲。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_0.png)
De Sarma在演讲中总结了在选择S3存储类别时应考虑的三个关键因素:访问频率、存储期限和检索需求。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_1.png)
她指出,如果对象大小低于128KB,将数据从S3标准迁移到S3冰川深度归档时,应至少存储20个月以实现成本节省(由于转换费用)。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_2.png)
她还强调了预测S3中单个对象的访问模式并优化存储成本的挑战性。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_3.png)
为了实现高吞吐量和性能,他们在访问S3中的对象时使用范围请求和多个前缀。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_4.png)
领导者在讨论中还探讨了如何利用S3存储透镜来优化存储成本的问题。
![](https://d1trpeugzwbig5.cloudfront.net/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3/images/rebranded/STG211-Optimizing_storage_price_and_performance_with_Amazon_S3_5.png)
## 总结
本演讲主要探讨了如何运用[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)优化存储成本和性能。首先强调了使用S3 Storage Lens等工具监测存储使用情况以及挖掘数据洞察的重要性。关键步骤包括设定生命周期策略,将访问频率较低的数据转移到成本较低的存储类别,并利用S3智能分层功能来自动优化具有不特定访问模式的数据成本。在提高性能方面,需关注结构化关键前缀以最大化请求响应速度,调整客户端超时以减少延迟,并采用并行处理技术以提高吞吐量。Anthropic公司的一个成功案例展示了他们通过S3实现800Gbps的传输速度用于训练AI模型。最后,演讲给出了一些建议,例如利用Storage Lens寻找优化空间,开启智能分层功能,并应用CRT进行自动化并行处理。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")