全新计算架构,训练效率提升4倍

Amazon EC2
0
0
**亚马逊云科技推出全新的 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)Trn2 实例和 Amazon EC2 Trn2 UltraServers,这是 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)目前为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练和推理任务提供的最强大计算解决方案。** Trn2 实例由第二代 Amazon Trainium 芯片(Trainium2)提供支持,相比第一代 Trn1 实例,**速度提升了4倍,内存带宽增加4倍,内存容量扩展了3倍**。与当前基于 GPU 的 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)P5e 和 P5en 实例相比,Trn2 实例的**性价比提升了30%-40%**。 除了搭载16个 Trainium2 芯片,每个 Trn2 实例还配备192个 vCPU、2TiB 内存以及 3.2Tbps 的 Elastic Fabric Adapter (EFA) v3 网络带宽,与 Trn1 实例相比,**网络延迟降低了35%**。 Trn2 UltraServers 则为计算提供了全新硬件选择,它搭载了64个 Trainium2 芯片,并通过高带宽、低延迟的 NeuronLink 互连,为前沿基础模型提供卓越的峰值推理和训练性能。 ### **突破性架构:纵向与横向扩展** 随着前沿模型规模和复杂性的不断增长,计算能力与架构设计需要实现持续创新。 简单来说,可以从两个方向讨论架构的可扩展性:纵向扩展(使用更高性能的计算机)和横向扩展(使用更多的计算机)。 虽然 Trainium2 芯片和 Trn2 实例似乎同时适用于这两种模式,但它们适用于架构的不同层级。让我们来回顾一下 Trn2 的构建模块: ![image.png](https://dev-media.amazoncloud.cn/d8752678757e45df99f653316e88c25f_image.png "image.png") #### **NeuronCore 和 Trainium2 芯片** NeuronCores 是 Trainium2 芯片的核心。每个第三代 NeuronCore 都包括一个标量引擎(1个输入到1个输出)、一个向量引擎(多个输入到多个输出)、一个张量引擎(脉动阵列乘法、卷积和转置)和 GPSIMD(通用单指令多数据)内核。 每个 Trainium2 芯片都有八个 NeuronCore 和 96GiB 的高带宽内存(HBM),支持 2.9TB/ 秒的 HBM 带宽。这些内核既可以单独寻址和使用,也可以将两个物理内核组合成一个逻辑内核来使用。单个 Trainium2 芯片可提供高达 1.3 petaflops 的密集 FP8 计算能力和高达 5.2 petaflops 的稀疏 FP8 计算能力,并且得益于对 HBM 队列的自动重排序,内存带宽的利用率可以达到 95%。 #### **Trn2 实例和 UltraServers** 每个 Trn2 实例包含 16 个 Trainum2 芯片,总计 128 个 NeuronCores、1.5TiB 的 HBM 和 46TB/ 秒的 HBM 带宽。总的来说,密集 FP8 计算能力高达 20.8 petaflops,而稀疏 FP8 计算能力高达 83.2 petaflops。Trainium2 芯片通过 NeuronLink 连接在二维环形结构中,以 1GB/ 秒的速度进行高带宽、低延迟的芯片间通信。 一台 UltraServer 包含四个 Trn2 实例,这些实例通过低延迟、高带宽 NeuronLink 连接,也就是 512 个 NeuronCores、64 个 Trainium2 芯片、6TiB 的 HBM 和 185TB/秒的 HBM 带宽。在计算方面,密集 FP 计算能力高达 83 petaflops,而稀疏 FP8 计算能力高达 332 petaflops。 除了连接实例内 NeuronCores 的二维环形结构外,在四个实例中,每个实例的相应 XY 位置上的 Core 也以环形结构相连。 **在推理方面,UltraServers 可帮助提供业界领先的响应时间**,从而创造极佳的实时体验。**在训练方面,UltraServers 能够通过更快速的聚合通信实现模型并行**,与单独实例相比,这样可以提高模型训练的速度和效率。 UltraServers 旨在支持万亿参数级别及以上的训练和推理,目前以预览版的形式提供,您可以点击下方链接试用预览版。 > **[Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)Trn2 UltraServers:** > > https\://pages.awscloud.com/EC2-Trn2-UltraServers-Preview\.html?trk=cndc-detail ### **使用 Trn2 实例** Trn2 实例目前已在美国东部(俄亥俄州)亚马逊云科技区域可用,支持通过 EC2 容量块进行预订,最多可预订64个实例,最长预订期为6个月。
0
目录
关闭