引领 AI 的未来:在 Amazon EKS 上部署生成式模型

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 生成式 AI 应用程序正在从根本上改变企业与客户互动和服务客户的方式。许多客户转向在 Kubernetes 上运行的开源工具,以帮助加速他们的生成式 AI 过程。在本论坛中,学习 Ray、JupyterHub、Argo Workflows 和 Karpenter 等工具如何加速在[Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail)上构建和部署生成式 AI 应用程序。还可以深入研究亚马逊云科技客户在 [Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail) 上运行的特定生成式 AI 用例。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1200字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 未来的人工智能:在[Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail)上部署生成模型" 尽管这个标题包含了诸如AI、生成模型和Kubernetes等引人注目的技术词汇,但演讲者强调,他们的真正目标是为企业提供实际指导,这些企业已经使用了Kubernetes并希望探索[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载。在过去的一年里,许多公司经历了人工智能的恐惧,因为生成性AI的进步引起了人们的关注。领导团队召开了紧急会议,询问如何制定AI战略并利用新能力。这个负担往往落在DevOps、MLOps和工程领导者身上,他们需要提供将AI想法投入运行所需的基础设施和环境。 数据科学家正在寻求更快的存储、更多的计算力量和最新的库来与生成性模型一起工作。财务部门紧张地看着,担心成本爆炸。领导希望立即看到结果。工程团队必须在保持安全、合规和质量的同时交付成果。 演讲者建议,组织不需要从零开始学习新技术来实现这一目标。扩大现有的EKS平台以支持[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载可以加速组织在生成性AI方面的旅程。EKS使得轻松集成亚马逊最新的技术计算、网络和基础设施[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)创新。Kubernetes ML开源社区的最近发展也可以用来将EKS环境转变为用户友好的ML平台。 总之,将EKS用于ML和生成性AI工作负载有助于组织更快地从想法过渡到生产应用,这比预期的要快。演讲者甚至还带来了一个EKS客户,John Weber来自Adobe,分享了他们如何扩展其EKS平台以构建和部署Adobe Firefly。 在技术讨论部分,演讲者提供了关于人工智能及其子集(如[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和深度学习)发展的背景。生成性AI可以摄入现有内容并生成新的、原创的内容。一些例子包括编写故事、制作音乐视频和创建对话聊天机器人。 近年来,随着可用的数据数量呈现指数级增长、云计算资源的扩充以及[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的不断创新,生成性人工智能逐渐崛起。仅在过去三年里,最大的AI模型的参数就已经增长了1500多倍,从2019年的3亿增加到了如今的5000亿。 生成性人工智能的应用领域广泛,包括通过聊天机器人提升客户体验、通过自动化工作流程和代码生成提高员工生产力以及强化文档分析等业务流程。 尽管传统的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型通常需要数月的人工数据标注来完成特定的任务,但生成性模型可以在庞大的未标记数据集上进行训练,以创建通用的基础模型。然后,这些模型可以针对特定应用进行微调,所需的数据量比传统技术更少。这样一来,以往所需的高昂人工努力得以减少。 然而,与传统ML相比,训练和部署生成性模型面临着更大的扩展挑战。例如,需要自动配置计算资源来处理大量的数据集,同时Kubernetes控制面必须支持潜在的数千个节点。高效地将大量实例的数据分布在集群中是大型模型所必需的。此外,在规模扩大时,硬件故障是无法避免的,因此需要采取措施将其影响降到最低。 为了解决这些挑战,EKS通过无缝集成到专为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)需求设计的亚马逊云科技的存储、网络和计算服务来提供解决方案: - 自动扩展和加速的实例提供了灵活的计算供应; - 高吞吐量存储如Lustre等处理大型数据集; - 弹性织物适配器实现了类似于内部HPC集群的高带宽集群网络性能; - 管理的控制面能够自动与任何大小的EKS集群一起扩展。 对于推断过程,Carpenter提供了针对[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)动态资源需求的Kubernetes原生自动扩展功能。虽然Carpenter并非专为ML设计,但其灵活的节点供应非常适合根据用户流量上下调整推断工作负载。 演讲者认识到满意的客户将推动进一步的创新。未来的EKS集成将包括支持新的EC2实例类型、用于在大规模数据处理中直接在容器内挂载S3存储桶的CSI驱动程序以及优化在大规模集群中分布大型容器镜像。 性能和弹性方面的改进正在进行中,因为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载需要最高的效率和稳定的运行时间。演讲着重强调,在EKS上运行ML工作负载应该是一种无缝的体验,而不需要进行大量的专门配置以达到最佳的灵活性和性能。 从技术细节到实际案例,演讲者展示了客户如何使用EKS进行生成性AI的实际应用。例如,Anthropic在其对话AI模型Claude上使用EKS进行大规模训练,以创建一个多功能的基础模型。Cohere和Anthropic在EKS上构建内部生成性AI平台,以简化其团队的访问。此外,像Adobe这样的消费者公司也扩展了其EKS基础,以支持新的产品功能,如生成内容创作。 Adobe的高级总监John Weber参与了讨论,分享了Adobe如何将其EKS平台扩展以支持[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载并构建Adobe Firefly。他指出,在Adobe,由于所有基础设施和合规要求,推出新产品可能需要工程师花费几周甚至几个月的时间。 为了解决这些问题,Adobe开发了基于EKS的内部Ethos开发者平台,该平台抽象了基础设施供应、构建CI/CD管道以及监控和可观察性的配置等复杂性。这使得工程师可以专注于编写代码,而无需处理基础设施的细节。 对于Firefly之类的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)时间工作负载,Adobe可以利用Ethos来提供一个熟悉的环境,而无需让数据科学家成为Kubernetes专家。这大大加速了Firefly的开发进程。 Adobe与亚马逊云科技紧密合作,以确保有足够的GPU用于生成性模型的应用,解决Kubernetes API速率限制问题,并优化容器的启动时间以适应规模。通过迁移到EKS,他们将集群管理员的比例从10:1提高到了超过30:1。 展望未来,Adobe计划放弃其过时的CI/CD系统,采用Argo Workflows来支持其与[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作流程的灵活性。他们还将继续整合界面,以进一步简化开发人员的体验。尽管GPU短缺仍然是整个行业的挑战,但Adobe正在探索使用专为低成本推断而设计的亚马逊云科技推理实例。 演讲者承认,Kubernetes最初并非专为[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)设计。然而,建立在Kubernetes之上的抽象层可以为数据科学家提供一个熟悉的环境,同时利用Kubernetes背后的强大功能。 亚马逊云科技近期推出了一款名为KARP的蓝图,该蓝图集成了JupyterHub、Argo Workflows和Ray,旨在提供端到端的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)栈。JupyterHub为数据科学家提供了一个易于实验和开发的界面。Argo Workflows则负责处理[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)平台的工作流协调。Ray则为模型并行性和推断功能提供支持。 此外,亚马逊云科技还推出了"Data on EKS"蓝图,旨在简化在EKS上运行数据分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载的过程。建议参与者积极参与这些举措,以便在EKS上进行数据和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)探索。 总的来说,演讲者强调,通过构建现有的EKS平台,企业可以缩短产品上市时间,避免重新设计基础设施以降低成本,轻松扩展管理控制平面,并借助如KARP和Data on EKS等解决方案简化对[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)功能的访问。 在整场演讲中,多位客户案例强调了EKS在优化成本以及加速部署[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)应用程序方面的优势。通过将EKS扩展为支持生成性人工智能工作负载,企业可以在从想法到生产的整个过程中实现更快的速度,这比之前预期的要快得多。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技正致力于帮助组织在Kubernetes上支持[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载,以满足日益增长的AI能力需求。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_0.png) 行业领导者强调了亚马逊云科技如何轻松地访问大规模计算资源以进行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)训练和大规模推理。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_1.png) 这些生成性AI模型不需要大量的人工数据标注,而且可以根据新的应用场景进行微调,而无需从头开始重新训练。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_2.png) 演讲者分享了Carpenter项目是如何通过允许用户提供约束条件并让Carpenter根据工作负载需求管理实时、适当大小的计算来支持灵活且高性能的EKS Kubernetes节点自动扩展的。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_3.png) Adobe已经将他们的EKS环境扩展以支持生成性AI工作负载。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_4.png) 由于Adobe需要快速交付世界一流的AI体验,他们选择在亚马逊云科技上构建这个系统,以便能够快速部署并对客户体验有更深入的了解。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_5.png) 此外,亚马逊云科技还推出了Data on EKS,以更简化的方式在EKS上部署端到端的数据分析、[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和流处理栈。 ![](https://d1trpeugzwbig5.cloudfront.net/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS/images/rebranded/CON312-Navigating_the_future_of_AI__Deploying_generative_models_on_Amazon_EKS_6.png) ## 总结 生成性人工智能有潜力彻底改变商业和客户体验的诸多方面。然而,训练和部署这些强大的模型面临着规模、成本和复杂性等方面的挑战。亚马逊云科技的EKS技术揭示了如何解决这些问题。EKS能够无缝集成并自动扩展适用于大型模型分布式训练的亚马逊云科技计算、网络和存储服务。通过管理控制平面,可以调配和调整数千个GPU节点的集群,实现弹性。EKS还与EC2、EFA和S3等服务原生集成,以优化成本和性能。视频展示了EKS如何助力Adobe快速构建和部署其生成性AI产品Firefly。Adobe已将EKS平台扩展到了数据科学家,利用Kubernetes对基础设施复杂性的抽象。这使实验更加迅速,缩短了产品上市时间。EKS可以加速任何组织在生成性AI领域的进程。结合管理的Kubernetes基础设施和与EKS集成的开源ML工具(如KARP)为一个用于开发、训练和部署强大生成性模型的健壮平台。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭