亚马逊云科技新服务—— 使用 Amazon SageMaker 大规模训练机器学习模型

Serverless

机器学习

re:Invent

# 一、超大规模深度学习模型 ——第三波 AI 浪潮的拐点前段时间，DALL·E、Stable Diffusion、NovelAi 绘画模型，Make-A-Video 文本生成视频等 **AIGC（生成式人工智能）** 模型引领了众多新兴应用程序，GPT3、ChatGPT 等大型语言模型在响应人类指令、进行复杂推理、代码生成、智能定制以及将能力泛化到没有见过的任务等方面风靡全球，**这代表着人工智能进入了一个新的技术范式：即超大规模深度学习模型**。 ![1.png](https://dev-media.amazoncloud.cn/91a3068bebd54d86879555f3d3e05aeb_1.png "1.png") 这种整合尽可能多的数据，汇集大量算力，集约化的训练模式正在逐渐改变信息产业的格局，改变以前作坊式 AI 开发模式，把 AI 应用带入基于互联网、云计算的大规模智能云阶段，可以预见大规模深度学习模型将成为一个快速发展、快速引爆市场的机会型技术，并且成为 AI 第三波浪潮的一个拐点。 # 二、大规模深度学习模型的挑战 “大”模型，意味着数据量更多，数学公式更复杂，参数更多，2017年 Transformer 结构的提出，使得深度学习模型参数突破了1亿。到了 BERT 网络模型的提出，使得参数量首次超过3亿规模，GPT-3 模型超过百亿，NovelAi、ChatGPT、InstructGPT 等更是参数超过千亿。 ![2.png](https://dev-media.amazoncloud.cn/1878b70a46cf4c6491e0a35856a6fb1e_2.png "2.png") 在训练大模型的过程中，我们要考虑硬件算力、硬件运行良好以减少干扰、考虑合理编排集群、数据集的存取、基础设施管理、成本等等因素，在本次 re:Invent 大会上，亚马逊云科技为我们详细展示了如何使用 **[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 在不需要管理基础设施的情况下减少训练，并且调整大规模[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的时间和成本**。 # 三、Amazon SageMaker ## 3.1、Amazon SageMaker 是什么？ [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 是一项完全托管的端到端[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)服务。数据科学家和开发人员可以使用 SageMaker 快速、大规模地构建、训练和托管[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型，然后直接将模型部署到生产就绪的托管环境中。[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 的主要工作组件包括：**算法编写、模型训练、模型评估、模型托管**等。 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 最初于2017亚马逊云科技 re:Invent 全球大会上面世，目前已成为亚马逊云科技有史以来增长速度最快的服务之一。五年时间已有数以万计的客户利用 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 创建了数百万个模型，参数规模可达千亿级别，每月生成数千亿的预测结果。 ## 3.2、更完美的大规模深度学习模型训练支持 SageMaker 为训练大规模模型提供了灵活、完善、可扩展的基础架构和训练支持，帮助开发者、数据科学家和业务分析师轻松快速地准备数据，并大规模地构建、训练、部署高质量[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型，具有相当强大的和丰富的功能： ![3.PNG](https://dev-media.amazoncloud.cn/d160d84f368c405f86a65cba91c4bb59_3.PNG "3.PNG") - **底层**：SageMaker 提供了如 Nvidia GPUs:V100、A100、T4，Nitro、EFA、CPU instances 等大量的基础架构； - **中间层**：SageMaker 提供了托管基础设施和工具功能，可以处理大规模集群编排，协助安全和网络配置任务，并提供了分析、调试、监控和超参数优化工具； - **顶层**：SageMaker 提供了 TensorFlow、Pytorch、Hugging Face 等诸多框架和库。此外，SageMaker 还可以提供常见的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)算法，这些算法经过了优化，可以在分布式环境中高效处理非常大的数据。借助对的原生支持 bring-your-own-algorithms 和框架， SageMaker 提供灵活并且适合具体工作流程的分布式训练选项。通过单击几下来启动模型，即可将模型部署到安全的、可扩展的环境中 SageMaker Studio SageMaker 控制台。 ![4.png](https://dev-media.amazoncloud.cn/3bef6b8a33814241afdeed2807ad3210_4.png "4.png") ## 3.3、更高效的存储服务 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 可以同时使用 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)，[Amazon EFS](https://aws.amazon.com/cn/efs/?trk=cndc-detail) 和 [Amazon FSx for Lustre](https://aws.amazon.com/cn/fsx/lustre/?trk=cndc-detail) 三种不同的存储服务类型作为输入通道的数据源。 ![5.png](https://dev-media.amazoncloud.cn/8dfcaefdeba64f0fb4a8a8fc789d7bf9_5.png "5.png") - **[Amazon Simple Storage Service](https://aws.amazon.com/cn/s3/?trk=cndc-detail) ([Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail))** 是一种对象存储服务，提供行业领先的可扩展性、数据可用性、安全性和性能。各种规模和行业的客户可以为几乎任何使用案例存储和保护任意数量的数据； - **[Amazon Elastic File System](https://aws.amazon.com/cn/efs/?trk=cndc-detail) ([Amazon EFS](https://aws.amazon.com/cn/efs/?trk=cndc-detail))** 提供[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)、完全弹性的文件存储，让您无需预置或管理存储容量和性能即可共享文件数据； - 通过**[Amazon FSx for Lustre](https://aws.amazon.com/cn/fsx/lustre/?trk=cndc-detail)**，[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)可以高速访问您在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)上的训练数据，从而加速您的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练任务。 ## 3.4、更快的启动时间 SageMaker 创新性的提出 Warm Pools，可以让集群保持活度，在短时间内快速再训练，有利于帮助开发者不用等待每个资源之间的任务启动时间，而是快速进行尝试和调试，提高生产任务的速度。 ![6.png](https://dev-media.amazoncloud.cn/145bc0ccd0ad43f2b24e0a0a6fb035c1_6.png "6.png") ![7.png](https://dev-media.amazoncloud.cn/6c4f013fa7664a8f8e98f9664b10a38e_7.png "7.png") ## 3.5、更智能的 AI 审查除此之外，[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 还提供了使用 [Amazon Augmented AI](https://aws.amazon.com/cn/augmented-ai/?trk=cndc-detail) 对低置信度预测或随机预测样本进行人工审核功能。 ![8.png](https://dev-media.amazoncloud.cn/94d6ce169a694fe882316ffd33431330_8.png "8.png") [Amazon Augmented AI](https://aws.amazon.com/cn/augmented-ai/?trk=cndc-detail) (Amazon A2I) 通过消除与构建人工审查系统或管理大量人工审查员相关的繁重工作，为所有开发人员带来 ML 预测的人工审查，其极大程度上简化了 ML 应用程序的人工审核构建和管理，当模型无法做出高置信度预测或无法持续审核其预测时，再通过人工审核员介入，极大程度上减轻了审核难度和人工的工作量。 ## 3.6、更合理的分布式并行框架 **SageMaker 分布式训练库使用分区算法，在亚马逊云科技 GPU 实例中自动拆分大型深度学习模型和训练数据集。** ![9.png](https://dev-media.amazoncloud.cn/3e8bea08b8864d649b1dea6dc838e8db_9.png "9.png") 使用 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 的分布式模型 parallel 库，可以自动高效地将模型拆分为多个 GPU 和实例，只需额外几行代码，就可以将数据并行或模型并行添加到 PyTorch 和 TensorFlow 训练脚本中，SageMaker 通过使用分区算法来确定拆分模型以平衡每个 GPU 的计算量，同时尽量减少各 GPU 实例之间的通信。 ![10.png](https://dev-media.amazoncloud.cn/3bd624d67dce4cb3aa4499c64a8369a6_10.png "10.png") # 四、实例：AI21 Labs 如何通过 SageMaker 克服 AI 大模型的挑战 AI21 Labs 于2017年由人工智能先驱和技术资深人士创立，专注于使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来开发理解意义的语言模型，并在2021年设定了训练最近发布的 Jurassic-1 Jumbo 的目标，这是一种具有1780亿个参数的自回归语言模型。 ![11.png](https://dev-media.amazoncloud.cn/0a3cf4ebbbef4209bd2608628d81fbab_11.png "11.png") 为了高效地训练其第一个深度学习巨型模型并支持模型的高扩展性和性能需求，AI21 Labs 需要强大的计算能力、高效的网络速度以及获得技术支持和指导，其使用 SageMaker 通过在分布式模型上训练来获得所需的性能和内存 1. 实例部署在称为 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)UltraClusters 的超大规模集群中，集群提供超过4,000个 NVIDIA A100 GPU、PB 级非阻塞网络基础设施和高吞吐量、低延迟存储。 2. 针对高吞吐量和低延迟网络，AI21 Labs 使用了 **Elastic Fabric Adapter**，使用定制的操作系统旁路技术来增强实例间通信的性能，测试并验证了其多节点训练方法的性能和有效扩展。 3. 对于存储，AI21 Labs 选择了 **[Amazon Simple Storage Service](https://aws.amazon.com/cn/s3/?trk=cndc-detail) ([Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail))**，它给模型提供领先的可扩展性、数据可用性、安全性和性能，使用 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 帮助 AI21 Labs 以分布式方式高效地存储和加载检查点。 4. 对于记录训练进度和训练途中遇到的事件，AI21 Labs 还使用到了 **[Amazon CloudWatch](https://aws.amazon.com/cn/cloudwatch/?trk=cndc-detail)**，实时监控资源以及运行的应用程序，收集和跟踪指标，了解系统范围的资源使用率、应用程序性能和运行状况。 # 五、总结与展望本次 re:Invent 大会带来的 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 令人眼前一亮，其在大规模训练[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型非常出色，其能够： - 高效且经济地扩展到数百个 GPU - 支持 PyTorch 上的分布式训练和模型并行性 - 可以建立大规模开发模型 - 最准确的高级超参数调整方法 - 支持创新性和敏捷性 - 开发了具有1780亿个参数和256,000项词汇的语言模型看完 re:Invent 大会，感觉到 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 正在帮助[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)消除壁垒并释放强大力量，在 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 的帮助下，广大开发者可以通过优化的基础设施将大规模模型高效且经济地扩展部署，全面实施自动化、标准化的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)实践，并大规模地构建、训练、部署高质量[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型并将训练模型所需时间由数小时缩短至数分钟。展望未来，期待亚马逊云科技继续开发新功能，帮助开发者更好地运用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)！文章审核：binc

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家