基于亚马逊自研机器学习训练芯片 Trainium 的 Amazon EC2 Trn1 实例正式上线

机器学习
Amazon EC2
0
0
{"value":"基于亚马逊云科技 Trainium 芯片的 **Amazon EC2 Trn1** 实例可以为热门机器学习模型在亚马逊云平台上进行深度学习训练提供最佳性能,与基于 GPU 芯片的同类型实例相比,可实现多达50%的训练成本节省。目前,包括 PyTorch, Helixon 和 Money Forward 等客户和合作伙伴已经开始使用 Trn1 实例。\n\n#### **01**\n\n亚马逊云科技于2022年10月10日正式宣布全面推出由亚马逊云科技 Trainium 芯片提供支持的 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例。Trn1 实例专为在云中对机器学习模型进行高性能训练而构建,与基于 GPU 的同类实例相比,可节省高达50%的训练成本。Trn1 实例在亚马逊云科技上为热门机器学习模型提供最快的训练速度,使客户能够减少训练时间,快速迭代模型以提高准确性,并提升自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等各种工作负载的生产效率。使用 Trn1 实例毋需最低承诺或预付费用,客户只需为使用的计算量付费。\n\n\n\n如需开始使用 Trn1 实例,请访问:\n[aws.amazon.com/ec2/instance-types/trn1](https://aws.amazon.com/cn/ec2/instance-types/trn1/)\n\n![image.png](https://dev-media.amazoncloud.cn/ce580a7f2cd74e8cb1f3aae46c44a658_image.png)\n\n#### **02**\n\n越来越多的客户正在构建、训练和部署机器学习模型,支持有可能重塑其业务和客户体验的应用程序。这些机器学习模型正变得越来越复杂,而且使用越来越多的训练数据来帮助提高准确性。有鉴于此,客户必须在数千台加速器上扩展其模型,从而导致了训练成本的增加。这也直接影响了研发团队实验和训练不同模型的能力,从而限制了客户将其创新成果推向市场的速度。亚马逊云科技已经提供了最广泛和最深入的机器学习硬件加速器的计算产品,例如由亚马逊云科技 Inferentia 芯片支持的 Inf1 实例、G5 实例、P4d 实例和 DL1 实例。但是,即使使用当今最快的加速实例,训练更复杂的机器学习模型仍然可能昂贵且耗时。\n\n\n\n由亚马逊云科技 Trainium 芯片支持的全新 Trn1 实例可在亚马逊云平台上提供最高性价比和最快的机器学习模型训练,与最新基于 GPU 的 P4d 实例相比,可节省高达50%的深度学习模型训练成本。亚马逊云科技推出的 Neuron 软件开发工具包,全面支持 Trn1 实例,允许客户只需最少的代码修改即可开始使用,该工具包已经集成到 PyTorch 和 TensorFlow 等主流机器学习框架中。\n\n\n\n\n\n#### **03**\n\nTrn1 实例支持多达16个专为部署深度学习模型而构建的Trainium加速器。Trn1 实例是首批提供高达 800Gbps 网络带宽的 Amazon EC2 实例(比最新基于 GPU 的 EC2 实例降低了延迟,速度快了2倍),使用亚马逊云科技的第二代 Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1 实例还使用 NeuronLink(一种高速实例内互连)来加快训练速度。客户将 Trn1 实例部署在由数万个 Trainium 加速器组成的 Amazon EC2 UltraCluster 中,可以快速训练最复杂的具有数万亿个参数的深度学习模型。\n\n![image.png](https://dev-media.amazoncloud.cn/7fd229376d7b4d37b1a0952899c2f6f3_image.png)\n\n借助 EC2 UltraClusters,客户将能够通过与 EFA PB 级网络互连的多达30,000个 Trainium 加速器来扩展机器学习模型的训练,从而能够按需访问超级计算机性能,将训练时间从几个月缩短到几天。每个 Trn1 实例支持高达 8TB 的本地 NVMe SSD 存储,可快速访问大型数据集。Trainium 支持多种数据类型(FP32, TF32, BF16, FP16 和可配置 FP8)和随机舍入这种概率舍入方式。与深度学习训练中常用的传统舍入模式相比,随机舍入的性能和准确性更高。Trainium 还支持动态张量形状(Dynamic Tensor Shape)和自定义算子(Custom Operators),以提供灵活的基础设施,满足客户的训练需求。\n\n\n\n\n\n#### **04**\n\n“多年来,我们看到机器学习从大型企业使用的小众技术逐渐发展成为我们许多客户业务的核心部分,我们预计机器学习训练很快就会在他们的计算需求中占据较大的比例,”**亚马逊云科技 Amazon EC2 副总裁 David Brown** 说到。“基于我们的高性能机器学习芯片 Inferentia 取得的成功,Trainium 是我们专为高性能训练而打造的第二款机器学习芯片。由 Trainium 提供支持的 Trn1 实例将帮助我们的客户把训练时间从几个月缩短到几天,大大提高成本效益。”\n\n\n\nTrn1 实例基于亚马逊云科技 Nitro 系统构建,该系统是由亚马逊云科技设计的硬件和软件创新集合,可简化隔离多租户、私有网络和快速本地存储的交付。亚马逊云科技 Nitro 系统将 CPU 虚拟化、存储和网络功能转移到专用硬件和软件中,从而提供与裸机几乎无异的性能。Trn1 实例同时也支持通过其他亚马逊云科技服务提供,包括 Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS) 和 Amazon Batch。Trn1 实例支持多种购买选项,包括按需实例、预留实例、Savings Plan 或竞价实例。Trn1 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)上市,并且即将在其他亚马逊云科技地区推出。\n\n\n\n有关 Trn1 实例的更多信息,请访问:\n[aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available ](https://aws.amazon.com/cn/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available/)\n\n#### **05**\n\n亚马逊的产品搜索引擎索引了数十亿种产品,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。\n\n“我们正在训练多模态、多语言、多环境的大型语言模型,对多项任务进行预训练,涵盖多项实体(产品、查询、品牌、评测等),以改善客户购物体验,”**亚马逊搜索高级首席科学家 Trishul Chilimbi** 说到。“与其他加速机器学习解决方案相比,Amazon EC2 Trn1 实例通过提供最佳的性能功耗比提供了一种更可持续的方式来训练大型语言模型,并以最低的成本为我们提供优异性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。”\n\n\nPyTorch 是一个开源机器学习框架,可加速从研究原型设计到生产部署的路径。\n\n“在 PyTorch,我们希望加快将机器学习从研究原型设计到应用于客户的生产的过程。我们与亚马逊云科技广泛合作,为新的亚马逊云科技 Trainium 驱动的 Trn1 实例提供原生 PyTorch 支持。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练,”**在 PyTorch 担任工程经理负责 Applied AI 的 Geeta Chauhan** 表示。“此外,我们还与 OpenXLA 社区合作,使 PyTorch 分布式库能够轻松实现从基于 GPU 的实例到 Trn1 实例的模型迁移。我们对 Trn1 实例为 PyTorch 社区带来的创新激动不已,包括更高效的数据类型、动态形状、自定义算子、优化了硬件的随机舍入和亟需的调试模式。所有这些功能使得 Trn1 非常适合 PyTorch 开发人员广泛采用,我们期待将来能一起推动 PyTorch 的发展,进一步优化训练性能。”\n\nHelixon 为基于蛋白质的疗法构建下一代人工智能解决方案,开发 AI 工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。\n\n“今天,我们使用 Fully Sharded Data Parallel 之类的分布式训练库在许多基于 GPU 的服务器上进行并行模型训练,但这仍然需要我们数周时间来训练单个模型,”**Helixon 首席执行官彭健**说到。“我们很高兴能够利用亚马逊云科技上网络带宽最高的 Amazon EC2 Trn1 实例来提高我们分布式训练任务的性能,减少我们的模型训练时间,同时降低了我们的训练成本。”\n\nMoney Forward, Inc. 是一个为企业和个人提供开放和公平的金融平台。\n\n“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了97%,同时成本也得以下降。由于我们会定期对定制自然语言处理模型进行微调,因此减少模型训练时间和成本也很重要,”**Money Forward 首席技术官 Takuya Nakade** 说到。“根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于亚马逊云科技 Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端机器学习性能和成本方面带来更多价值。”\n\nMagic 是一家从事产品和研究的综合性公司,开发就像同事一样的人工智能,提高世界的生产力。\n\n“训练大型基于自回归解码器的模型是我们工作的重要组成部分。亚马逊云科技 Trainium 驱动的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速节点间联网以及对16位和8位数据类型的高级支持,”**Magic联合创始人兼首席执行官 Eric Steinberger** 表示。“Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 对 BF16 随机舍入提供原生支持,对此我们感到特别兴奋,在性能得以提高的同时,数字准确性也与全精度没什么差别。”","render":"<p>基于亚马逊云科技 Trainium 芯片的 <strong>Amazon EC2 Trn1</strong> 实例可以为热门机器学习模型在亚马逊云平台上进行深度学习训练提供最佳性能,与基于 GPU 芯片的同类型实例相比,可实现多达50%的训练成本节省。目前,包括 PyTorch, Helixon 和 Money Forward 等客户和合作伙伴已经开始使用 Trn1 实例。</p>\n<h4><a id=\"01_2\"></a><strong>01</strong></h4>\n<p>亚马逊云科技于2022年10月10日正式宣布全面推出由亚马逊云科技 Trainium 芯片提供支持的 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例。Trn1 实例专为在云中对机器学习模型进行高性能训练而构建,与基于 GPU 的同类实例相比,可节省高达50%的训练成本。Trn1 实例在亚马逊云科技上为热门机器学习模型提供最快的训练速度,使客户能够减少训练时间,快速迭代模型以提高准确性,并提升自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等各种工作负载的生产效率。使用 Trn1 实例毋需最低承诺或预付费用,客户只需为使用的计算量付费。</p>\n<p>如需开始使用 Trn1 实例,请访问:<br />\n<a href=\"https://aws.amazon.com/cn/ec2/instance-types/trn1/\" target=\"_blank\">aws.amazon.com/ec2/instance-types/trn1</a></p>\n<p><img src=\"https://dev-media.amazoncloud.cn/ce580a7f2cd74e8cb1f3aae46c44a658_image.png\" alt=\"image.png\" /></p>\n<h4><a id=\"02_13\"></a><strong>02</strong></h4>\n<p>越来越多的客户正在构建、训练和部署机器学习模型,支持有可能重塑其业务和客户体验的应用程序。这些机器学习模型正变得越来越复杂,而且使用越来越多的训练数据来帮助提高准确性。有鉴于此,客户必须在数千台加速器上扩展其模型,从而导致了训练成本的增加。这也直接影响了研发团队实验和训练不同模型的能力,从而限制了客户将其创新成果推向市场的速度。亚马逊云科技已经提供了最广泛和最深入的机器学习硬件加速器的计算产品,例如由亚马逊云科技 Inferentia 芯片支持的 Inf1 实例、G5 实例、P4d 实例和 DL1 实例。但是,即使使用当今最快的加速实例,训练更复杂的机器学习模型仍然可能昂贵且耗时。</p>\n<p>由亚马逊云科技 Trainium 芯片支持的全新 Trn1 实例可在亚马逊云平台上提供最高性价比和最快的机器学习模型训练,与最新基于 GPU 的 P4d 实例相比,可节省高达50%的深度学习模型训练成本。亚马逊云科技推出的 Neuron 软件开发工具包,全面支持 Trn1 实例,允许客户只需最少的代码修改即可开始使用,该工具包已经集成到 PyTorch 和 TensorFlow 等主流机器学习框架中。</p>\n<h4><a id=\"03_25\"></a><strong>03</strong></h4>\n<p>Trn1 实例支持多达16个专为部署深度学习模型而构建的Trainium加速器。Trn1 实例是首批提供高达 800Gbps 网络带宽的 Amazon EC2 实例(比最新基于 GPU 的 EC2 实例降低了延迟,速度快了2倍),使用亚马逊云科技的第二代 Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1 实例还使用 NeuronLink(一种高速实例内互连)来加快训练速度。客户将 Trn1 实例部署在由数万个 Trainium 加速器组成的 Amazon EC2 UltraCluster 中,可以快速训练最复杂的具有数万亿个参数的深度学习模型。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/7fd229376d7b4d37b1a0952899c2f6f3_image.png\" alt=\"image.png\" /></p>\n<p>借助 EC2 UltraClusters,客户将能够通过与 EFA PB 级网络互连的多达30,000个 Trainium 加速器来扩展机器学习模型的训练,从而能够按需访问超级计算机性能,将训练时间从几个月缩短到几天。每个 Trn1 实例支持高达 8TB 的本地 NVMe SSD 存储,可快速访问大型数据集。Trainium 支持多种数据类型(FP32, TF32, BF16, FP16 和可配置 FP8)和随机舍入这种概率舍入方式。与深度学习训练中常用的传统舍入模式相比,随机舍入的性能和准确性更高。Trainium 还支持动态张量形状(Dynamic Tensor Shape)和自定义算子(Custom Operators),以提供灵活的基础设施,满足客户的训练需求。</p>\n<h4><a id=\"04_37\"></a><strong>04</strong></h4>\n<p>“多年来,我们看到机器学习从大型企业使用的小众技术逐渐发展成为我们许多客户业务的核心部分,我们预计机器学习训练很快就会在他们的计算需求中占据较大的比例,”<strong>亚马逊云科技 Amazon EC2 副总裁 David Brown</strong> 说到。“基于我们的高性能机器学习芯片 Inferentia 取得的成功,Trainium 是我们专为高性能训练而打造的第二款机器学习芯片。由 Trainium 提供支持的 Trn1 实例将帮助我们的客户把训练时间从几个月缩短到几天,大大提高成本效益。”</p>\n<p>Trn1 实例基于亚马逊云科技 Nitro 系统构建,该系统是由亚马逊云科技设计的硬件和软件创新集合,可简化隔离多租户、私有网络和快速本地存储的交付。亚马逊云科技 Nitro 系统将 CPU 虚拟化、存储和网络功能转移到专用硬件和软件中,从而提供与裸机几乎无异的性能。Trn1 实例同时也支持通过其他亚马逊云科技服务提供,包括 Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS) 和 Amazon Batch。Trn1 实例支持多种购买选项,包括按需实例、预留实例、Savings Plan 或竞价实例。Trn1 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)上市,并且即将在其他亚马逊云科技地区推出。</p>\n<p>有关 Trn1 实例的更多信息,请访问:<br />\n<a href=\"https://aws.amazon.com/cn/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available/\" target=\"_blank\">aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available </a></p>\n<h4><a id=\"05_50\"></a><strong>05</strong></h4>\n<p>亚马逊的产品搜索引擎索引了数十亿种产品,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。</p>\n<p>“我们正在训练多模态、多语言、多环境的大型语言模型,对多项任务进行预训练,涵盖多项实体(产品、查询、品牌、评测等),以改善客户购物体验,”<strong>亚马逊搜索高级首席科学家 Trishul Chilimbi</strong> 说到。“与其他加速机器学习解决方案相比,Amazon EC2 Trn1 实例通过提供最佳的性能功耗比提供了一种更可持续的方式来训练大型语言模型,并以最低的成本为我们提供优异性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。”</p>\n<p>PyTorch 是一个开源机器学习框架,可加速从研究原型设计到生产部署的路径。</p>\n<p>“在 PyTorch,我们希望加快将机器学习从研究原型设计到应用于客户的生产的过程。我们与亚马逊云科技广泛合作,为新的亚马逊云科技 Trainium 驱动的 Trn1 实例提供原生 PyTorch 支持。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练,”<strong>在 PyTorch 担任工程经理负责 Applied AI 的 Geeta Chauhan</strong> 表示。“此外,我们还与 OpenXLA 社区合作,使 PyTorch 分布式库能够轻松实现从基于 GPU 的实例到 Trn1 实例的模型迁移。我们对 Trn1 实例为 PyTorch 社区带来的创新激动不已,包括更高效的数据类型、动态形状、自定义算子、优化了硬件的随机舍入和亟需的调试模式。所有这些功能使得 Trn1 非常适合 PyTorch 开发人员广泛采用,我们期待将来能一起推动 PyTorch 的发展,进一步优化训练性能。”</p>\n<p>Helixon 为基于蛋白质的疗法构建下一代人工智能解决方案,开发 AI 工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。</p>\n<p>“今天,我们使用 Fully Sharded Data Parallel 之类的分布式训练库在许多基于 GPU 的服务器上进行并行模型训练,但这仍然需要我们数周时间来训练单个模型,”<strong>Helixon 首席执行官彭健</strong>说到。“我们很高兴能够利用亚马逊云科技上网络带宽最高的 Amazon EC2 Trn1 实例来提高我们分布式训练任务的性能,减少我们的模型训练时间,同时降低了我们的训练成本。”</p>\n<p>Money Forward, Inc. 是一个为企业和个人提供开放和公平的金融平台。</p>\n<p>“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了97%,同时成本也得以下降。由于我们会定期对定制自然语言处理模型进行微调,因此减少模型训练时间和成本也很重要,”<strong>Money Forward 首席技术官 Takuya Nakade</strong> 说到。“根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于亚马逊云科技 Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端机器学习性能和成本方面带来更多价值。”</p>\n<p>Magic 是一家从事产品和研究的综合性公司,开发就像同事一样的人工智能,提高世界的生产力。</p>\n<p>“训练大型基于自回归解码器的模型是我们工作的重要组成部分。亚马逊云科技 Trainium 驱动的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速节点间联网以及对16位和8位数据类型的高级支持,”<strong>Magic联合创始人兼首席执行官 Eric Steinberger</strong> 表示。“Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 对 BF16 随机舍入提供原生支持,对此我们感到特别兴奋,在性能得以提高的同时,数字准确性也与全精度没什么差别。”</p>\n"}
0
目录
关闭