在 Amazon SageMaker 平台上进行最先进的机器学习模型训练和调整

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 使用最先进的训练工具和当前性能最高的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)计算基础架构,在 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 上更快地训练[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)(ML)模型。SageMaker 交互式调试和分析工具可以揭示复杂的模型行为,并近乎实时地剖析硬件使用情况。您还可以使用最快和最简单的方法,训练大型深度学习模型和数据集,从而优化分布式训练作业。加入本论坛,了解支持大规模和经济高效的模型训练的新功能。在大语言模型定制和预培训的整个过程中获得规范性指导,以帮助您加速生成式 AI 开发。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1200字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 演讲者包括Amazon云科技的SageMaker产品经理Gal Oshry,负责亚马逊云科技Generative AI基金会技术领域社群领导的Emily Weber,以及来自丰田研究所的Thomas Kollar。 Gal通过向观众提问开始了他的演讲,了解有多少人在使用GPU训练[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型,拥有数百甚至数千个GPU。接下来,他将话题转向了在亚马逊SageMaker上培训和优化最先进的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型。 他指出,[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)已经在许多领域被证明是有用的,如推荐系统、信用预测、自动驾驶和文档分析。尤其是,深度学习在计算机视觉和自然语言处理方面的应用引起了广泛关注。就在几年前,像客厅这样的场景生成的图像还是虚假和不连贯的。但现在,模型可以生成非常真实且详细的照片,几乎无法与真实照片区分开来。 Gal将这些进步归因于诸如变压器架构等算法的改进。此外,数据集大小的增加、模型规模的扩大以及用于训练的大量计算能力也起到了重要作用。研究表明,我们可以通过扩大这些维度来进一步提高性能。为了保持竞争力,公司需要利用这些进展为客户提供高质量的最强学习体验。 然而,训练大规模模型也存在一些挑战。首先是跟上硬件的创新步伐,每几年就会有显著提升培训效率的创新。但是,仅获得硬件是不够的——您必须在漫长的培训过程中确保其可靠性。团队还需要有效处理跨多个资源的协调和并行培训。存储、加载和处理大型数据集需要大量工程工作,并存在潜在问题。扩大基础设施和算法规模并不容易,因为模型可能会超过单个加速器的容量。所有这些都会导致较高的计算成本,尤其是在尝试许多模型变体时。Gal强调,对许多客户来说,让[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工程师专注于建模工作而非基础设施管理是首要任务。 这是亚马逊SageMaker大显身手的地方——它解决了许多大型模型训练方面的挑战。Gal对SageMaker的工作原理进行了概括性描述。首先使用CreateTrainingJob API调用,指定数据集、计算资源和算法。SageMaker会设置具有网络连接和其他配置的集群以节省时间。在开始作业之前,它会进行健康状况检查以验证硬件并防止浪费成本或中断培训。根据需要,可以从S3、EFS或FSx加载灵活选项以复制或流式传输数据。 Docker训练图像可以来自亚马逊云科技的算法或自定义图像。SageMaker支持跨资源分布培训并提供库以加速数据和模型并行培训。日志将实时流式传输到CloudWatch,元数据和超参数将被跟踪,且检查点将同步到S3以实现容错。在作业完成时,将模型成果保存以备稍后重用。SageMaker在完成后会自动关闭计算,使得团队无需监控夜间作业。相同的方法可以扩展到更大的群集大小以用于巨型模型。 一个令人惊叹的新功能是自动集群修复。如果在培训过程中节点发生故障,SageMaker将在分钟内重新启动、替换并将其重新加入集群以最小化停机时间并继续培训。Gal强调SageMaker使得大规模[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)培训变得易于上手。主要Estimator API只需要几行代码即可启动分布式培训作业。此外,新的@remote_python装饰器自动将代码序列化为SageMaker作业以运行,而无需学习SageMaker API。 一旦运行起来,SageMaker集中所有元数据、超参数和成果以跟踪实验。这比使用电子表格或文档更加方便地从中学习。SageMaker分析器通过分析硬件利用率并识别瓶颈来提高培训效率。一项名为智能筛选的新功能可以在培训过程中从数据集中过滤无意义的样本,从而减少培训时间和成本高达35%。 盖尔随后邀请了艾米丽·韦伯来讨论如何在亚马逊SageMaker中对大型语言模型进行调整。艾米丽首先解释了调整较小模型的优势,包括提高准确性、降低成本以及简化模型管理等。客户也喜欢这种专业模型的所有权。 然而,从大量数据中完全预训练新模型非常适合处理极其庞大的专有数据。预训练可以创建更具通用性的表示,且不需要标签数据。艾米丽概述了在SageMaker中进行预训练的步骤,包括收集至少1TB的文本数据、与公共数据进行组合、预处理和优化、开发培训脚本、扩大集群规模以及反复评估。她强调了SageMaker的功能,如分布式培训库、快速迭代的热池以及灵活的基础设施,使得预训练成为可能。 接下来,艾米丽进行现场演示,展示了如何在SageMaker上使用笔记本实例、FSx for Lustre存储、Trainium实例等预训练一个拥有70亿参数的LLaMA模型。她解释了这种小型模型如何能在自定义数据上实现惊人的准确性,同时降低成本。演示还展示了启动分布式SageMaker培训工作的便捷性,以及跟踪日志和输出的过程。 来自丰田研究所的托马斯·科尔拉尔接着分享了他们如何使用SageMaker的案例。TRI研究自动驾驶汽车、执行杂货货架补货等任务的机器人技术、以人为本的人工智能以及材料科学。他们的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)团队致力于在语言、视觉和行动领域建立基础。SageMaker已经在多个方面加速了他们的工作。他们在进行一般实验时,利用1到8个实例,并通过热池等功能高效地进行模型迭代。为了扩大规模,他们可以启动数百个GPU的集群,并利用优化的分布式培训库。他们还利用切换实例类型来利用最新的硬件提速。他们已经将使用SageMaker支持的大型数据集的训练数据从TB级扩大到半PB级。自动集群修复功能在他们遇到硬件故障时挽救了他们的时间。 亚马逊SageMaker已成功将其大型语言模型(如LLaMA 2)部署到服务器中,通过扩展至256个H1实例展示了如何使用SageMaker训练大型先进模型。此外,他们还进行了特定领域的预训练,例如提高日语语言能力。通过SageMaker端点,他们可以以低延迟提供服务。总体而言,SageMaker在加速TRI的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作方面发挥了重要作用,包括快速实验、大规模训练和模型服务。 简而言之,亚马逊SageMaker提供了一个全管理平台,以高效地训练各种规模的前沿[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型。便利的工具、优化的算法、灵活的基础设施以及针对大型数据集、分布式训练和可靠性的强大功能使得快速迭代和生产化最先进的模型成为可能。多个客户案例展示了SageMaker在各种领域和用例中加速实际[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)应用的实施。 **下面是一些演讲现场的精彩瞬间:** 领导者向观众询问,开始使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型来评估他们进入主题前经验的有多少。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_0.png) 亚马逊云科技的领导者展示了计算机视觉深度学习的快速发展,如今已能生成极为逼真的合成图像。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_1.png) 亚马逊云科技提供了一系列创新的硬件和编排工具,以实现大规模模型训练的高效率。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_2.png) 领导者强调了在训练大型[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型时,高效扩展基础设施、算法和成本的重要性。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_3.png) Saker利用了CloudWatch来实时传输训练日志,存储元数据和超参数,并同步检查点以防训练过程中出现问题导致进度丢失。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_4.png) 亚马逊云科技宣布在SageMaker中引入智能筛选功能,以降低深度学习训练时间和成本,剔除不重要的数据。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_5.png) 演讲者期待未来能够出现一个基础模型,能够通过语言和其他输入,一次性完成多种不同机器人任务的训练。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker/images/rebranded/AIM335-Train_and_tune_state_of_the_art_ML_models_on_Amazon_SageMaker_6.png) ## 总结 演讲者们探讨了亚马逊SageMaker如何支持大规模训练复杂的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型。他们强调了诸如智能筛选以降低培训成本、快速替换故障实例的集群修复以及用于大规模训练的SageMaker HyperPod等新功能。Emily展示了如何在SageMaker上使用各种实例类型以及对更快迭代的预热池来对拥有70亿参数的Lama模型进行微调。来自丰田研究院的Tom分享了他们如何使用SageMaker通过小型集群进行实验并快速扩展到数百个GPU以进行最先进的模型训练。总的来说,SageMaker提供了一个完全管理的平台,可在确保安全性和成本优化的同时高效地使用最新硬件训练模型,实现无缝扩展,跟踪实验并部署模型。演讲者强调了这些功能如何使更多用户能够访问复杂[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的训练。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭