[新发布]使用 Amazon EC2 容量块为机器学习预留 GPU 容量

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/CMP105-_NEW_LAUNCH__Reserve_GPU_capacity_with_Amazon_EC2_Capacity_Blocks_for_ML-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 深度学习的最新进展驱动了基础模型的创建,这些模型在许多领域都实现了 AI 能力的突破。然而,企业在尝试为自己的目的训练和微调这些模型时,面临着访问 GPU 这一行业性挑战。在本讲座中,您将了解如何使用 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)Capacity Blocks for ML 为您的 ML 工作负载需求预留 GPU 容量。查看 Capacity Blocks 如何与 [Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail) 集成,作为依赖 GPU 容量可用性的模型开发和部署工作流的完整 ML 堆栈的一部分。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 杰克·西德尔,作为亚马逊云科技(Amazon Web Services)的产品经理,热情地欢迎观众并介绍了自己。他是亚马逊云科技容量产品团队的一员,担任新的EC2容量块产品的产品经理。 首先,他强调了[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)如何彻底改变我们生活的方方面面。过去一年里,将[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)应用于开发新产品和转型企业的速度在迅速加快。亚马逊云科技在推动[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)民主化方面发挥了关键作用,使超过10万名在亚马逊云科技上运行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载的客户能够轻松获得。 在过去的一年里,像ChatGBT这样的生成性AI的突破尤其吸引了公众的想象力。亚马逊云科技发现,在各种使用场景中构建和部署生成性AI应用程序的客户数量增长了超过100%。这些应用包括使用文本生成来提高工人生产力70%以上,以及利用音乐和视频生成来增强创造力50%以上。亚马逊云科技期待继续寻找生成性AI的新应用并找出它可以增加80%以上价值的地方。 西德尔先生解释了为什么客户选择亚马逊云科技作为他们的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载以及可用的不同服务产品。亚马逊云科技拥有最全面的75多种AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)服务,适用于所有技能水平。这为客户提供了许多选择,使他们总是有针对其特定使用案例优化的解决方案。 亚马逊云科技将其产品组织成三个层次。底层包括[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)框架和基础设施,如EC2实例。这些功能加速硬件,如GPU或定制ML硅,可以提高性能超过2倍。这些实例还使用高速25 Gbps网络接口来提高分布式训练速度3倍。 亚马逊云科技通过提供预打包在深度学习镜像和容器中的深度学习框架(如PyTorch和TensorFlow)进一步优化了这一层。这使得任何人开始使用这些优化的实例容易了50%以上。 中间层是亚马逊SageMaker,这是一个完全托管的服务,可以将构建、训练和部署[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的时间减少75%以上。SageMaker适合希望专注于数据科学而亚马逊云科技处理基础设施管理的客户。 顶层的15多种AI服务,如[Amazon CodeWhisperer](https://aws.amazon.com/cn/codewhisperer/?trk=cndc-detail)和[Amazon Polly](https://aws.amazon.com/cn/polly/?trk=cndc-detail),均由亚马逊云科技开发,支持任务特定的服务,可通过基于费用的API调用来轻松访问。相较自我管理的解决方案,使用这些服务的客户成本可降低20%以上。 Siddle先生强调,具有Nvidia H100 GPU的EC2 P5实例目前由容量块支持。P5实例在分布式训练性能上比前一代提高30%以上,使其成为深度学习工作负载的最高性能选项。 P5实例利用了专为高性能大规模模型训练设计的EC2 Ultra集群。一个Ultra集群将最多20,000个H100 GPU通过最多100 Tbps的聚合网络带宽连接在一起。这使得训练跨GPU集群的模型的客户能够更快地扩展规模。 Siddle先生接着讨论了亚马逊云科技客户在按需获取GPU方面所面临的挑战。过去一年里,生成性AI的突破使对GPU的需求增加了200%以上,而供应仅增长了20%。这使得亚马逊云科技客户在需要时获得GPU变得非常困难,他们通常需要等待2-3个月的时间,并且即使在不使用的时候也需要保留容量。 他概述了两种现有的GPU实例配置方法——按需预留容量和Spot实例。然而,按需预留容量需要2-4周的提前时间,而Spot实例可以根据需求随时中断。 因此,引入了针对[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的EC2容量块作为新的GPU实例配置选项。容量块支持当前在美国东部(俄亥俄)地区的P5实例。 通过容量块,客户可以预订1-64个P5实例,有效期为1-14天。价格根据需求动态变化,但平均比P5按需费率低25-50%。客户可以从短短1天开始预订容量,甚至可以通过亚马逊云科技管理控制台实时查看可用性。 这使得容量块成为了比按需预留更灵活、更有弹性的选择。客户在使用时不必保留未使用的容量,从而减少了高达70%的浪费。例如,客户可以使用按需预留作为基准容量,并辅以间隔性工作的区块。 西德尔先生分享了一个关于莱昂纳多·AI(一家运用生成性人工智能技术优化GPU资源分配的初创公司)的客户成功案例。通过使用容量块来更精确地匹配GPU资源和任务,他们的GPU浪费降低了60%以上,同时获取使用权限的时间缩短至1-2天,相比之前的2-3个月。 在现场演示中,西德尔先生在亚马逊云科技的管理控制台展示了如何预留一个容量块。他讲解了如何搜索可用的容量块,选择合适的参数如实例类型、数量和持续时间,查看动态定价,并在不到5分钟的时间内完成预订。 他还解释了如何通过自管理的节点组和启动模板将容量块与亚马逊EKS无缝集成。这样可以根据作业需求自动调整集群容量大小,使其与容量块相匹配。 总的来说,西德尔先生解释道,容量块为亚马逊云科技客户提供了新的方式来自由获取用于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)任务的GPU资源,这种方式既灵活又具成本效益。通过在需要时预留短期的容量,客户可以减少超过50%的资源浪费,并确保在1-2天内而非2-3个月内按需使用GPU。 这次演讲全面地介绍了容量块如何帮助亚马逊云科技客户解决获取用于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载的GPU资源的挑战。西德尔先生详细地阐述了客户需求、亚马逊云科技的解决方案以及容量块的定量优势和使用场景。他的热情和对演示的关注使得观众清晰地理解如何利用容量块为他们在亚马逊云科技上基于GPU的工作负载带来便利。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技为其容量块提供了一种灵活的GPU预留方案,以满足各种[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练需求。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP105-_NEW_LAUNCH__Reserve_GPU_capacity_with_Amazon_EC2_Capacity_Blocks_for_ML/images/rebranded/CMP105-_NEW_LAUNCH__Reserve_GPU_capacity_with_Amazon_EC2_Capacity_Blocks_for_ML_0.png) ## 总结 这段视频探讨了如何在Amazon EC2中预留GPU资源的方法,以便在亚马逊云科技上运行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载。主讲人首先介绍了客户选择亚马逊云科技的原因,强调了其丰富的ML服务。接着,他将重点放在适用于训练大型深度学习模型的EC2 GPU实例类型,例如P4和P5。客户面临的挑战之一是如何在他们需要时获取稀缺的GPU资源。主讲人介绍了作为一种新的配置选项的容量块(Capacity Blocks),它允许在未来预留GPU资源。 接下来,主讲人展示了如何使用容量块(Capacity Blocks)。用户需要指定GPU实例类型、实例数量、持续时间以及搜索可用容量插槽的日期范围。控制台将显示可立即预订的可用时间插槽。对于间歇性使用模式,容量块(Capacity Blocks)可能会比预留实例(Reserved Instances)更划算。 最后,主讲人在现场演示了如何从控制台预留容量块(Capacity Block)。他创建了一个针对预留容量的启动模板,并展示了如何与[Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail)(亚马逊弹性Kubernetes服务)结合使用来自动扩展到容量块(Capacity Block)的实例。主讲人提供了一些有用的链接,以帮助开始使用容量块(Capacity Blocks)。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭