幕后看看亚马逊的生成式 AI 基础设施

云计算

re:Invent

## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读为了在控制成本的同时支持性能生成式 AI 应用程序，亚马逊云科技设计并构建了[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)加速器，例如 Amazon Trainium 和 Amazon Inferentia2。在本论坛中，了解一下这种专门构建的基础架构如何推动亚马逊云科技团队和亚马逊云科技客户的创新。了解 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 如何使用这些加速器为 AI21 Labs、Anthropic、Stability AI、Cohere 和亚马逊云科技的基础模型提供卓越的性价比。还可以了解亚马逊云科技用户如何使用这些专门构建的加速器在各种产品和服务中构建、部署和扩展生成式 AI 模型。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华，共1400字，阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。</font> 加布里尔·赫特（Gabby Hutt）是Anuna Labs公司的产品和业务发展总监。在一次有500多名[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)开发人员和工程师参加的背后活动中，她对亚马逊云科技（Amazon Web Services）的生成性AI基础设施进行了深入的探讨。她为这场为期45分钟的活动介绍了一系列内容丰富的议程，包括从2011年开始的多年度历史，以及Anuna Labs如何开始开发这一基础设施的过程，经历了多个硬件和软件能力世代的演变，最新的性能指标如5倍降低推理成本，以及已经利用该技术的主要客户（如Anthropic和Databricks）的见解。赫特表示，Anuna Labs是一个专门从事人工智能芯片设计的团队，如用于推理的Inferentia和用于训练的Trainium等芯片。自2011年成立以来，团队了解到他们的客户将是使用像PyTorch和TensorFlow这样的框架的软件开发者，而不是硬件工程师。因此，硅架构师需要深入理解软件层和生态系统，以确保硬件既能满足客户需求，又能满足亚马逊云科技数据中心的需求。选择错误的硅片可能会导致非常昂贵的错误，例如浪费的资金支出和在芯片生产后修复bug的延迟达9个月或更长时间。 Anuna Labs的团队在他们的芯片设计决策中基于三个关键原则：可移植性和可重用性，就像软件开发中的一样，以便在芯片世代之间实现最大化重用；易于使用，即使对于缺乏硬件知识的非专业人士也是如此；以及优化成本和性能，关注为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载提供每美元更多的性能。回顾到2017年，亚马逊云科技的团队（如Amazon Go、Prime Air、Alexa和亚马逊云科技的AI服务，如Rekognition和Lex）开始在视觉、语音和语言任务方面采用深度学习方法。但是，他们和客户需要将性能提高10倍，同时将成本降低50%，以运行最先进的模型。因此，Anuna Labs撰写了一份六页的业务案例，概述了为什么现在是开发专为推理和训练定制的专用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)芯片的好时机。他们所把握的机会主要包括：运用自身的内部设计和制造能力优化适用于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作的硅设计，从而提高效率达2-3倍并降低成本30-40%；推动软件和硬件的创新，实现10倍的性能提升；以及将亚马逊云科技的现有基础设施（如Nitro芯片）作为无缝集成到亚马逊云科技云生态系统的构建模块。在那时，常见的神经网络模型已应用于计算机视觉、自然语言处理和向量表示。关键观点是，尽管架构各异，但95%的操作都是矩阵数学。因此，加速这些操作变得至关重要。2017年发布的《注意力就是你需要的全部》一文预见了2019年的BERT等变压器模型的出现，这些模型需要更多的参数来支持高效的分布式训练。 Anuna Labs团队采用了"反转"策略，关注稳定的客户需求和他们自身的设计限制，而非预测未来哪些模型会受欢迎。首要任务是为客户提供高性能、低成本和易用性，同时支持跨世代的可重用性和集成到亚马逊云科技数据中心。为了实施这一雄心勃勃的芯片设计，Anuna Labs不得不从零起步组建团队，起初不足10名硬件工程师，且无软件专家或ML专家。Hutt分享了一张正在建设中的数据中心的幽默生成图像，开玩笑称早期的创业环境感觉类似——从头开始建立一切。事实上，第一个里程碑是交付用于推理工作负载的初始Inferentia芯片。Hutt展示了一张硬件负责人自豪地拿着第一个包装好的芯片的照片，这张照片是在办公室里拍摄的，准备组装到服务器中。其他照片展示了在他们的临时实验室中搭建的第一个服务器的实际操作、协作过程，该实验室最初只能容纳10台服务器。一旦Inferentia的设计最终确定，生产规模就会扩大，以便在全球各地的亚马逊云科技数据中心生产数千个机架，每个4U服务器可容纳多达16个Inferentia芯片，每个机架可放置数千台服务器。Hutt强调了全球范围内部署超过10,000个机架的能力，覆盖所有23个亚马逊云科技区域。展示了一台Inferentia服务器机架，每台4U服务器有16个芯片，提供高达5千万亿次浮点性能。 Trainium服务器的训练功能相当复杂，它由三个不同的模块组成。最底层包括x86计算和网络模块，中间层则有电源、冷却设备和8个Trainium处理器卡，每个卡都配有8个HBM内存堆栈，可提供128GB的内存容量和1.6TB/秒的带宽。顶层模块将所有组件以3D超立方拓扑结构连接在一起，以降低芯片间延迟并提高带宽。 Hutt详细解释了这种超立方连接和集体计算引擎如何支持跨服务器的多种模型并行方式，从而加速分布式训练。亚马逊云科技已经开始构建由60,000个芯片组成的Trainium集群，最初是从30,000个芯片开始，旨在为具有万亿参数的大型生成性人工智能模型提供动力。相较于Inferentia，Trainium拥有五倍多的晶体管，并采用更先进的设计，以适应高效训练所需的多余芯片内组件。每个Trainium服务器都配备了16个芯片，提供了512GB的内存和13.1TB/秒的内存带宽。Hutt概述了张量处理核心、内存、互连以及其他集成元件，这些元件使得Trainium具有卓越的性能。在软件方面，Neuron SDK轻松集成了PyTorch、TensorFlow、Hugging Face Transformers等框架。Hugging Face的Optimum Neuron可以最大限度地提高Trainium和Inferentia上的模型性能，他们顶级的100个模型中有93个受到支持。 Hutt还解释了Neuron编译器的优化功能，该功能能将Python代码有效地转换为针对芯片定制的机器代码。一个令人兴奋的新功能叫做Neuron内核接口，允许开发人员在纯硬件级别编写利用全部硬件潜力的自定义内核。在不同的领域中，她展示了鼓舞人心的客户案例。Anthropic正利用Trainium训练下一代AI助手模型，以改进人与AI的互动。Adobe正在运用Inferentia将诸如Stable Diffusion艺术作品生成等生成性AI工作负载的成本降低30-60%，同时提高用户请求量30%。全球各地的公司，如Cohere，都在一个月内利用Trainium构建了大型多语言模型，拥有数百亿个参数。Stock Markets在短短几周内就在Trainium上训练了一个130亿参数的日本模型，并将其作为arigato-LMD贡献到Hugging Face模型中心。Vico也正在利用Trainium为企业应用开发日本和中国模型。 Databricks的Naveen Rao探讨了他们如何使用Trainium作为他们的数据智能平台的一部分。他强调了在受监管行业（如金融和医疗保健）中控制模型开发和部署的重要性，在专有数据上调整模型以提高特定领域的性能，以及随着成千上万客户的使用量的增加保持低成本。 Rao解释称，Databricks如何通过其Mosaic ML平台（现已并入Databricks）利用新技术将训练模型的计算成本降低10-20倍。通过优化适用于Trainium硬件的模型架构、精度和并行化策略，他们将客户的性能提升和成本节省提高到50-90%。举例而言，Rao分享了德州游骑兵队（Texas Rangers）如何在亚马逊云科技上应用Databricks进行球员分析以提升比赛表现，展示了这项技术在不同行业的应用。最后，Hutt和Rao展望了更大的Trainium集群规模（高达60,000个芯片）、更多的成本和性能收益（例如，推理成本降低5倍），以及随着生成性AI渗透到更多亚马逊云科技及其客户的工作负载中所带来的持续快速创新。硬件和软件团队之间的深入合作是迄今为止取得进展的关键，并将使亚马逊云科技能够塑造这一具有变革性的AI技术的未来。 **下面是一些演讲现场的精彩瞬间：** 数据亮点及Leonardo AI的领军人物在活动现场探讨了在亚马逊云科技上的基因AI基础设施应用。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_0.png) 亚马逊云科技的负责人提及了一些客户，如Anthropic、Adobe、Stock Market和Databricks等，它们正利用Trainium技术训练大型语言模型和生成性AI模型，从而大幅降低成本并加速产品上市速度。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_1.png) 同时，还宣布了Niki作为新功能，让开发者能够在Trainium芯片上直接编写自定义高性能内核。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_2.png) 负责人还介绍了Unity Catalog的功能，使得亚马逊云科技能够对训练在这些数据上的AI模型进行治理和访问控制。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_3.png) 此外，智能引擎让用户能用简单的英语进行查询，无需具备SQL专业知识。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_4.png) 亚马逊云科技的领导者坚信，AI的目的是让人类更高效，而非替代人类的工作。 ![](https://d1trpeugzwbig5.cloudfront.net/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon/images/rebranded/CMP206-Behind_the_scenes_look_at_generative_AI_infrastructure_at_Amazon_5.png) ## 总结视频展示了亚马逊云科技如何在内部构建用于生成性AI工作负载的专用硬件和软件。该视频追溯了从早期原型服务器（由小型初创团队组装）到目前部署数千个机架的大型数据中心的演变历程。设计高效且成本低廉的芯片的关键在于理解软件需求并充分利用各代之间的重用。亚马逊云科技的Inferentia和Trainium芯片专为提高[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型的性能和计算能力而设计，具有高内存带宽。配套的网络技术将这些芯片编织成如今可以组成60,000个芯片的灵活集群。易于使用的软件工具，如Neuron SDK，以及与其他流行框架（如PyTorch和TensorFlow）的紧密集成使基础设施复杂性得以简化。这使得大规模快速实验、训练和部署大型语言模型、扩散模型等成为可能。例如，Databricks及其子公司Mosaic ML利用整个系统堆栈来降低成本并加速定制基本模型的开发。通过硬件和软件的协同优化，亚马逊云科技能够以更快的速度、更低的价格提供更多的AI容量。未来的发展计划包括扩大集群规模以及开发新的互连方式，以实现每个芯片的最大利用率。 ## 演讲原文 ## 想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！ [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处")，一键获取亚马逊云科技全球最新产品/服务资讯！ [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处")，一键获取亚马逊云科技中国区最新产品/服务资讯！ ## 即刻注册亚马逊云科技账户，开启云端之旅！ [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家