使用亚马逊云科技存储加速生成式 AI 和 ML 工作负载

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 AI 和 ML 的最新进展,以及市场驱动的跨行业使用 AI 的转变,为许多 IT 组织提供了一系列新的存储机会。在本论坛中,学习亚马逊云科技存储如何通过与广泛的 AI/ML 集成的高性能、可扩展存储,为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载提供构建块,以帮助您更快地创新。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 在亚马逊云科技re:Invent上,来自[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)产品管理团队的专业人士Peter Imming以及来自Amazon FSx文件存储团队的Jordan Dolman,共同带来了一场关于如何优化生成性AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)存储的启发性演讲。他们针对不同场景和需求,提供了量身定制的指导。主要关注点是选择合适的存储方案,以提高训练速度、数据加载和检查点功能。 自20世纪50年代以来,人工智能就已存在,使得系统能够通过[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)进行数据驱动的预测。如今,随着大量数据集、成熟工具和强大计算实例的出现,企业正渴望采用AI技术。然而,为了支持实时预测和推理的模型,高性能存储变得至关重要。 对于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载来说,存储在将数据快速交付给GPU和CPU计算实例方面起着关键作用。当这些资源因等待数据而闲置时,将导致时间和金钱的浪费。通过加速数据加载,可以显著降低整体培训成本。此外,存储速度对于大型[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的检查功能也非常重要。检查功能允许在训练过程中定期保存模型状态,以便在发生故障时,可以从最后一个检查点恢复,而不是从头开始。对于拥有数十亿参数的大型语言模型,这些检查点可能达到数TB的大小。因此,能够快速读写检查点的存储对于高效训练至关重要。 许多公司正将其[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载从内部环境迁移到云端。2018年,亚马逊推出了Amazon FSx,以帮助这类客户。FSx提供了诸如Lustre之类的流行商业和开源文件系统,以完全托管的模型提供服务。这使企业能够利用熟悉的管理功能和POSIX接口,同时与本机云服务无缝集成。 对于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载,FSx for Lustre已经成为一种常用选择。Lustre是一种广泛应用于国家实验室等高性能计算的高性能并行文件系统。FSx for Lustre提供了对快速模型训练至关重要的可扩展、低延迟性能。它还与其他亚马逊云科技服务无缝集成,如SageMaker,为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)平台提供了一个完整的解决方案。 POSIX接口是一种对Lustre文件系统非常有用的界面,它适用于权限管理和确保多研究人员共享数据时的一致性。数百名用户在共享FSx上的缓存文件时,可以共同协作而不必担心意外的覆盖。这个文件系统可以扩展到每秒处理数百GB的数据,以支持大型计算集群的高吞吐量。FSx实例可以与部署在同一可用区域的计算资源一起运行,以确保极低的延迟。最近,FSx增加了更换底层驱动文件系统服务器的能力。这使工作负载能够根据需要轻松更改并随着性能需求的演变进行调整。客户可以根据需要在[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)开发的各个阶段调整性能。许多公司还利用亚马逊云科技的S3服务构建基于S3的数据湖。这些数据湖可以存储数十亿有价值的数据,实现可扩展和高性能的访问,这对于训练大型[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型和应对突发的检查工作负载至关重要。使用S3数据湖的客户已经迅速采用人工智能和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来推动创新。 FSx for Lustre能够通过无缝的1:1文件系统映射提供POSIX接口,作为现有S3数据湖和存储桶的前端。这使得团队在继续使用熟悉的文件系统接口的同时,其数据仍然位于用于可扩展性和韧性的S3中。对于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练,通过Lustre链接S3避免了不必要的数据移动和复制。训练作业可以更快地启动,因为它们可以直接从S3读取,而无需首先将数据复制到本地存储。Lustre的高性能能力显著提高了每个训练时期的吞吐量。一旦数据在文件系统上本地缓存,低延迟的文件访问将进一步加速训练。对于检查点,客户的常规做法是先将检查点存储在FSx for Lustre文件系统中,然后将其复制到S3以实现长期持久性。不再需要的较旧检查点可以从文件系统中删除,以优化成本,而最新的检查点仍保留在高性能存储上,以便在需要时快速恢复。 冷数据存储在亚马逊云的S3中,而热数据则保留在FSx上,这样客户就可以在保持关键训练成果的快速存储的同时实现成本效益。有些客户的检查点频率甚至高达每分钟,而其他客户可能只每隔数小时或每天一次。这种频繁的写入负载给存储基础设施带来了巨大的压力。 亚马逊云科技的SageMaker是一款完全托管的服务,旨在降低[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的运营负担。它提供File Mode和Fast File Mode两种选项,前者需要在开始训练作业之前先将训练数据从S3复制到附接的存储中,而后者则可以直接从S3流式传输数据,无需先进行本地复制。 Fast File Mode与S3 Express搭配效果极佳,这是亚马逊云科技在re:Invent上推出的一种新的S3存储类。S3 Express专为超低延迟、高吞吐量和高每秒百万级别的请求而构建,适用于经常访问的数据。与响应时间一致且低于10毫秒的S3标准相比,它的延迟要低10倍。 S3 Express通过一个新的优化了规模的S3目录桶架构来实现这一点。目录桶具有分层组织结构以及区域和区域端点,以确保资源地理位置靠近数据。它们允许为整个桶而不是为每个文件或前缀设置权限和吞吐量限制。这避免了并行访问数据时的节流问题。 Express非常适合在与计算集群相同的可用区内放置[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)存储,以实现最大性能。尽管跨区域的数据显示有少量的延迟,但不需要使用额外的成本。最新的亚马逊云科技SDKs包括优化,如可配置的多部分传输,以充分利用Express的功能。 只需一次点击,即可将对象从S3标准复制到Express,而无需繁琐的清单。这对于像PyTorch、TensorFlow和Ray这样的“自己动手”[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)框架来说,S3的改进也提高了性能。对于PyTorch,一个新的S3连接器将吞吐量提高40%,检查点时间缩短40%,相较于默认的PyTorch数据加载器。它通过自动处理并行化和并发调优简化了数据加载过程。 S3 MountPoint是一项新功能,它允许将S3存储桶作为文件系统挂载到EC2实例上,从而实现高达30%的训练速度提升。这使得应用程序能够直接对S3执行标准文件操作。对于小文件性能,这特别有效,因为可以利用Express的低延迟和高吞吐量。 可选的本地缓存可以在第一次读取后,将像图像和视频等频繁读取的数据存储在实例的快速NVMe SSD上。这样可以避免对S3的往返访问,充分利用本地存储速度。在第一次训练周期中,有些元数据会被缓存,然后随着更多数据在缓存中变暖,性能会成倍提高。 一位客户正在使用FSx for Lustre链接到S3数据湖,以避免在SageMaker中训练模型时数据移动。通过将Lustre文件系统作为S3的前端,数据可以以模型训练所需的文件格式立即访问。这允许直接从S3读取,而无需首先将数据复制到本地存储。 其他客户利用Lustre的高性能缓存功能。在初始周期之后,每个后续周期都会通过访问缓存的训练数据实现显著改善的传输量。一些客户同时使用FSx for Lustre和S3来实现高效的检查点工作流程。他们最初将检查点存储在高性能的FSx文件系统上,然后复制到S3进行长期存储。这样可以通过将冷检查点分层到S3同时将最新检查点在FSx上保持可访问性,来实现存储成本的最优化。 总之,无论是从内部环境还是S3数据湖开始,亚马逊云科技都提供了优化的存储服务,以平衡AI/ML工作负载的性能和简单性。这些新功能提供了速度和规模,而无需复杂的调整。这使数据团队能够专注于根据工作负载设计存储,而不是相反。最终目标是使存储能够无缝地加速生成AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)在亚马逊云科技上的运行。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技在其可用性区域中协同部署基础设施,以实现与现场部署相似的低延迟。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_0.png) 作为默认的最常用选项,SageMaker为客户提供了在加载数据时选择文件模式或快速文件模式的便利。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_1.png) 为了实现无需每次请求都访问IAM的超低延迟数据访问,亚马逊云科技已优化其SDK,通过使用名为CreateSession的新API进行身份验证。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_2.png) 目录桶权限是在桶级而非个别对象级别设置的。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_3.png) 此外,S3的MountPoint功能通过在NVMe SSD上本地缓存高频访问数据,显著提高了性能。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_4.png) 亚马逊云科技致力于在存储和AI/ML功能之间找到恰当的平衡,以助客户打造最佳解决方案。 ![](https://d1trpeugzwbig5.cloudfront.net/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage/images/rebranded/STG212-Accelerate_generative_AI_and_ML_workloads_with_AWS_storage_5.png) ## 总结 1. 对于逐步迁移的过程,[Amazon FSx for Lustre](https://aws.amazon.com/cn/fsx/lustre/?trk=cndc-detail)提供了熟悉的POSIX文件系统接口,同时为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)(ML)训练提供了可扩展的性能。它实现了大规模共享数据以及用于协作模型开发的一致性。 2. 对于基于[Amazon Simple Storage Service](https://aws.amazon.com/cn/s3/?trk=cndc-detail) (S3)的数据湖,新的S3功能如S3 Object Lambda可以帮助优化数据格式。S3 Express为经常访问的数据提供超低延迟。 3. 本周,亚马逊云科技推出了S3 PyTorch连接器,以实现高达40%更高的吞吐量,以及用于更快训练的MountPoint for S3和适用于低延迟和高每秒交易量的S3 Express One Zone。 总的来说,无论您是从内部部署迁移还是使用云原生选项,亚马逊云科技都提供了优化的存储服务以加速[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载。新S3功能的组合既提供了性能又提供了简化,以支持您的ML应用程序。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭