使用高性能文件存储加速机器学习和 HPC

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 加速最苛刻的工作负载带来了好处,包括更快的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)(ML)培训,以及在更短的时间内完成更多 HPC 工作的能力。[Amazon FSx for Lustre](https://aws.amazon.com/cn/fsx/lustre/?trk=cndc-detail) 支持最苛刻的 HPC 工作负载,包括[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)、EDA、金融建模、天气预报以及视频渲染和转码。在本论坛中,请听一听 FSx for Lustre 如何被各种规模的企业采用,因为它通过提供亚微秒延迟、高达数百 GB/s 的吞吐量和数百万 IOPS 的共享存储,加速计算工作负载。了解完全托管的 Lustre 服务的好处,该服务可以大规模运行,并且只需几次单击即可轻松配置。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> ML数据集可能非常庞大,通常需要TB级别的存储空间。文件系统在多个节点上分布数据,并允许多个进程同时并行访问,从而顺利处理大量数据。文件系统提供了熟悉且易于使用的POSIX兼容界面,数据科学家习惯了这种界面,使得其容易集成到ML工作流中。此外,文件系统天生具有组织和数据的逻辑层次结构,简化了团队在应用程序之间的数据管理和共享。内置的元数据功能,如权限、时间戳和文件属性,有助于控制对ML工作负载的访问。 云计算的优势 根据演讲者的观点,将计算工作负载迁移到云端为企业带来了一些益处:首先,企业能够立即虚拟化无限的计算资源,允许任务并行运行,从而更快地得出结果。其次,企业喜欢能够在几分钟内访问数千个CPU或GPU,而不是等待几个月来采购基础设施。这种灵活性避免了前期资本成本。最后,将计算工作负载迁移到云端的根本性变革了一些组织的研究方式。按需伸缩计算的能力意味着可以更快地进行实验。研究人员可以运行更多的试验,测试新的算法,并加速科学突破。例如,一位客户通过搬到云端将一个[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的训练时间从1周减少到1-2天,这使他们能够在相同的时间内运行更多的实验。 可扩展数据访问的重要性 亚马逊云科技提供了多种存储选项,以满足不同的工作负载需求。其中,文件存储特别适合[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载,因为它具有分布式数据、提供熟悉的接口、简化数据管理和共享等特点。此外,将计算工作负载迁移到云端有很多好处,包括快速并行运行任务、无需购买基础设施即可即时访问计算资源等。 亚马逊云科技提供了一种高度优化的服务,能够实现数百GB/秒的吞吐量和数百万次IOPS,同时保持一致的亚毫秒延迟。这是一种完全由亚马逊云科技管理的服务,与亚马逊云科技的其他服务(如S3、EBS、安全、监控、自动化等)实现了本机集成。为了进一步优化价格和性能,该服务还提供了多种存储类别选项。此外,它还具有快速的文件S3集成功能,允许用户直接从S3存储桶中访问数据。FSx for Lustre的架构设计使得其能够通过在多个服务器上运行Lustre文件系统,实现如此高的可扩展性。数据会被自动分割并分布在所有的对象存储目标上。 这种并行性为客户端同时读取和写入数据提供了强大的处理能力和IOPS。增加更多的容量会增加更多的服务器和磁盘,因此性能会随着存储量的增加而线性扩展。无论文件系统的大小如何,Lustre都能保持一致的低延迟。 FSx for Lustre的优势在于创建后能够弹性地扩展文件系统,而无需停机时间。用户可以从最小的设置开始,例如1.2MB/s/Tb的文件系统,然后随着时间的推移根据需要扩展到更高的性能层或扩大容量。 Lustre将自动在新的资源之间重新平衡数据,以利用增加的容量。在演示中,吞吐量在线从125 MB/s扩大到每TB 1000 MB/s。 FSx for Lustre还具有调整选项,以根据不同的工作负载优化性能。默认配置将1GB的文件分布在5个磁盘上,但可以根据典型的文件大小进行定制。将大型文件分布在更多的磁盘和服务器上可以提高重I/O工作负载的并行性。 作为一个例子,Shell通过使用FSx for Lustre将其GPU集群扩展到云端,以应对额外的计算需求。这提供了快速的可扩展性,以应对需求的峰值,并保持GPU的高利用率。通过更快地进行更多试验,Shell提高了研究的生产力并降低了成本。Shell发现,搬到云端将GPU利用率从90%提高到将近100%,从而允许更快速的模型构建、测试和验证。 Netflix使用FSx for Lustre来为其媒体元数据的分布式[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)培训环境提供动力。通过将工作集缓存在FSx for Lustre中作为其S3数据湖的前端,他们将平均训练时间从1周缩短到1-2天。 FSx for Lustre的特性还包括数据压缩,通常提供50%的压缩率,提高性能的同时降低存储成本。此外,它还提供了备份和恢复选项,用于灾难恢复。与[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)的本机集成可以通过Fast File接口直接从S3桶中访问数据。 在一项对基因组学数据集进行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型训练的基准测试中,通过使用FSx for Lustre直接从S3访问数据,训练时间减少了67%,这比先将数据从S3复制到EBS卷更为高效。克服这一数据传输瓶颈可以带来更快的速度。 FSx for Lustre展示案例 该案例展示了如何通过亚马逊云科技控制台创建Lustre文件系统,将其加载到计算实例上,从S3导入数据,读取和释放文件,调整吞吐量以及自动将更改导出回S3的过程。 它强调了FSx for Lustre和S3之间的易用性和紧密集成。例如,从S3导入9.6TB的数据仅花费了4秒,并通过从缓存中读取实现了超过200 GB/s的吞吐量。 主要收益 总的来说,[Amazon FSx for Lustre](https://aws.amazon.com/cn/fsx/lustre/?trk=cndc-detail)结合了高度可扩展性、优化的价格性能比以及原生S3集成,为计算密集型工作负载提供了高性能的文件系统。其能够扩展到数百GB的吞吐量和数百万的IOPS,使其非常适合需要共享存储的大规模并行工作负载。 集成的数据压缩和S3访问进一步优化了其功能。FSx for Lustre消除了存储瓶颈,使Shell、Netflix和Toyota等组织能够在云中运行计算密集型作业,加速研究并提高洞察力的时间。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技(Amazon Web Services)的存储产品提供了超高速的访问,助力客户在计算密集型环境中实现更快速的创新。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_0.png) 领导者们重点介绍了名为吞吐量扩展的全新功能,这一功能能够根据需求灵活地调整性能上限。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_1.png) 此外,亚马逊云科技的数据压缩技术还能降低存储成本,加快备份速度并提高文件系统性能。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_2.png) 亚马逊云科技采用LZ4算法在缓存和磁盘存储之间进行压缩,实现了高压缩而不影响性能。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_3.png) 用户只需通过控制台一键开启压缩功能,即可提高性能并降低文件系统的成本。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_4.png) 这些文件虽然已从文件系统中释放,但仍存于归档中,对象存储目标上并无数据。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_5.png) 领导者们总结道,FSx对于Lustre具有关键优势,如可扩展性、优化定价以及通过与FSI和S3的集成来实现与S3的无缝对接。 ![](https://d1trpeugzwbig5.cloudfront.net/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage/images/rebranded/STG340-Accelerate_ML_and_HPC_with_high_performance_file_storage_6.png) ## 总结 亚马逊云科技提供可扩展的文件存储服务以加速[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和高性能计算工作负载。作为一款高吞吐量且可水平扩展的文件系统,FSx for Lustre能每秒处理数百GB的数据,满足大型计算集群的需求。其可通过独立调整存储和性能实现成本优化。Lustre技术将数据分布到服务器上,支持并发并行访问。此外,压缩功能能提高吞吐量并降低成本。 FSx for Lustre与[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)实现了原生集成,可直接访问S3存储桶中的数据。这样避免了预先复制数据的步骤,从而大大提高了工作效率。像Shell和Netflix这样的客户已利用FSx for Lustre克服数据瓶颈,将[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练时间从几周缩短至几天。通过提供高性能的共享文件存储以支持无限计算,FSx for Lustre助力组织在云端更快速地进行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和高性能计算的创新。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭