生成式 AI 应用的数据模式

云计算

re:Invent

## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/DAT338-Data_patterns_for_generative_AI_applications-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读生成式 AI 捕获了想象力，并正在改变行业。但要充分利用生成式 AI，您需要一个有效的数据策略。基础模型和其他大语言模型需要特定领域的语料库来进行上下文学习、微调和训练。在本讲座中，您将学习如何制定高效的数据策略，并使用亚马逊云科技的数据服务，如 [Amazon Aurora](https://aws.amazon.com/cn/rds/aurora/?trk=cndc-detail)、[Amazon RDS](https://aws.amazon.com/cn/rds/?trk=cndc-detail)、[Amazon OpenSearch Service](https://aws.amazon.com/cn/opensearch-service/?trk=cndc-detail) 等，来构建生成式 AI 应用程序。此外，您还将了解如何采用以数据为中心的架构模式来加速您的工作。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华，共1300字，阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。</font> 随着生成性AI应用的日益普及，满足定制化体验的需求成为了关注焦点。提供数据给生成性AI系统主要有三种途径：结合检索增强生成的上下文工程（RAG）、微调基础模型和从头开始训练自定义模型。在这三种方法中，结合RAG的上下文工程是最易实现的方法，因为它不需要大量的专业[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)知识。通过RAG，开发者可以设计提示为基础模型提供行为、情境和语义背景。行为背景包括关于模型如何行动的说明，如采用特定的人物角色或确认其响应。情境背景则利用对话历史和客户数据来定制响应。语义背景则检索相关文档和数据以告知模型的响应。将用户输入与这些上下文数据源一起包装成经过工程的提示后，基础模型可提供个性化且细致的响应。RAG允许开发者在无需自己训练AI模型的情况下，使用自己的数据提供区分化的体验。 RAG管道的细节得到了详细阐述。首先，将领域文档拆解为使用大型语言模型的令牌嵌入。将这些向量表示存储在用于相似性搜索的数据库中。当用户提问时，也使用相同的LLM对问题进行嵌入。然后，将用户的问题嵌入用于在数据库中找到最相似的向量表示，从而检索最相关的文档。这些文档提供语义背景，并与来自对话历史和客户数据的情境背景一起打包到最终的提示中。将此经过工程的提示提供给基础LLM，该LLM生成所有背景数据源的信息的响应。提及了用于RAG管道每个阶段的几种数据存储选项。提示模板可以存储在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)或数据库中。对话状态和历史记录非常适合用于像[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail)这样的NoSQL数据库。情境背景来自包含客户和业务数据的SQL、NoSQL和图形数据库。语义背景向量嵌入存储在专用的向量数据库中。演讲者强调了[Amazon Aurora](https://aws.amazon.com/cn/rds/aurora/?trk=cndc-detail) PostgreSQL和[Amazon OpenSearch Service](https://aws.amazon.com/cn/opensearch-service/?trk=cndc-detail)作为选项。在选择向量数据库时，有几个关键因素需要考虑。开发者应专注于优化对数据平台的熟悉程度，而非关注技术细节。简化处理向量的抽象有助于提高可扩展性（包括支持的向量数量和维度），这对于业务增长至关重要。性能指标如每秒查询量和召回率也应进行评估。索引和查询算法的灵活性使得定制成为可能。成本通常是最终的决定因素。总的来说，对关系型或非关系型数据库平台的现有熟悉程度通常会指导选择。演讲者深入探讨了如何准备领域数据和生成嵌入的后台流程。他们使用了诸如亚马逊云科技的Glue、Amazon MSK和[Amazon Kinesis](https://aws.amazon.com/cn/kinesis/?trk=cndc-detail)等服务来从结构化和非结构化源中获取数据。数据被存储在亚马逊云科技Redshift数据仓库或亚马逊云科技S3数据湖中。然后，使用像亚马逊云科技EMR这样的服务处理数据以准备用于嵌入。接下来，使用LLM生成嵌入并将其存储在向量数据库中。数据通常先批量处理以初始加载，然后再逐步更新数据。在整个过程中，数据治理至关重要，包括编目、访问控制和合规性。演讲者强调了亚马逊云科技的Lake Formation（用于安全和访问控制）和亚马逊云科技Data Exchange（用于数据编目）的重要性。值得一提的是，RAG（快速灵活原型）、微调、训练自定义模型这三种模式是互补的。大多数客户首先使用RAG进行敏捷原型设计。随着应用的成熟，他们可能会定期调整基础模型以引入更新的背景。偶尔，他们可能从头开始训练自定义模型以纳入专门的数据。通常的过程是从RAG到微调再到训练自定义模型。演讲者强调，生成性人工智能（AI）需要不断优化其数据策略。为了实现这一目标，需要整合结构化和非结构化数据，以原始格式和向量形式。为了在整个组织内提供统一的视角，需要整合不同的数据孤岛。数据处理管道需要扩展，以便为生成性AI模型准备数据，包括标签、嵌入和微调的工作流程。随着越来越多的用户与生成性AI互动，治理政策、访问控制、合规性和负责任的人工智能方面的考虑因素必须得到加强。通过使用编录技术和业务元数据，使模型能够建立联系。尽管基础模型可能会发生变化，但数据始终是区分优劣的关键因素。公司必须投资于为其特定行业、客户和用例定制的高质量数据的整理。这可以总结为“您的数据就是差异所在。” 为了展示实际应用，演讲者通过一个假设的保险业聊天机器人用例进行了解释。例如，当用户咨询购买汽车保险时，聊天机器人不仅能提供一般的回答，还能利用来自客户数据库的背景信息来确认他们的车辆详细信息并表示问候。此外，聊天机器人还能从保险政策的相关文件中提取信息，以提供更丰富的语境支持。这些都表明了RAG如何使聊天机器人能够提供个性化且数据驱动的响应。为了将这个过程可视化，演讲者提供了一个包含设计提示各个组成部分的图表。用户的输入会被添加上操作指示，引导模型以保险代理人的身份确认其答复。情境背景则包括从诸如[Amazon Kendra](https://aws.amazon.com/cn/kendra/?trk=cndc-detail)等[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)搜索系统获取的客户姓名、车辆和家庭成员信息等。语义背景则是从保险政策文件中提取的相关信息。将所有这些上下文数据结合起来，形成最终的提示，并将其传递给基本语言模型。为了使整个过程具有可操作性，提供了使用LangChain Python框架实现生成性AI的代码片段。LangChain提供了用于提示工程、对话记忆、语义检索以及其他亚马逊云科技数据服务（如[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail)和[Amazon Kendra](https://aws.amazon.com/cn/kendra/?trk=cndc-detail)）集成的模块。这展示了如何通过可重复使用的框架和云数据服务来构建RAG管道。演讲者深入探讨了向量嵌入及其在语义搜索中的应用。文档被拆解成具有不同含义的标记，并通过一个语言模型在高维空间中生成的向量表示。在这个向量空间中，意义相近的标记在数学上是更为接近的。这使得快速计算相似性成为可能，以便识别相关内容。演讲者将嵌入生成技术与文档指纹技术进行了对比。生成的向量数据库可以通过问题嵌入进行查询，以找到最相似的文档。在亚马逊云科技上，两种向量数据库选项受到了特别关注：带有开源pg_vector扩展的[Amazon Aurora](https://aws.amazon.com/cn/rds/aurora/?trk=cndc-detail) PostgreSQL和Amazon OpenSearch服务。如果已经使用PostgreSQL或者更喜欢关系型数据库，那么Aurora PostgreSQL是一个自然选择。OpenSearch提供了更多的索引灵活性，对于熟悉NoSQL的用户来说更加友好。例如，法律科技公司CS Disco使用了[Amazon RDS](https://aws.amazon.com/cn/rds/?trk=cndc-detail)上的pg_vector，为律师构建了一个AI助手，从而受益于与其现有的PostgreSQL数据库架构的紧密集成。演讲者还提出了对基础模型微调的一些建议。总体架构相似，包括摄入、数据湖和仓库中的存储以及嵌入。亚马逊SageMaker提供了用于模型训练的笔记本和工作流程。亚马逊云科技Bedrock通过允许使用存储在亚马逊S3中的带标签的问题/答案数据来自动定制模型，以简化微调过程。只需要几百个示例就能带来有意义的改进。总的来说，他们重申了所有三种方法（RAG、微调和训练自定义模型）都是互补的。从RAG开始进行敏捷原型设计，定期微调模型以纳入新数据，并偶尔针对专门的使用场景训练自定义模型。在整个过程中，确保您的数据策略不断发展以支持负责任的高质量生成性AI应用程序。关注收集领域特定的数据，因为那将是持久的区别因素。亚马逊云科技提供各种各样的数据服务，以将数据供应给生成性AI系统。 **下面是一些演讲现场的精彩瞬间：** 亚马逊云科技为客户提供三种不同的模式，以便将他们的数据整合到AI系统中。 ![](https://d1trpeugzwbig5.cloudfront.net/DAT338-Data_patterns_for_generative_AI_applications/images/rebranded/DAT338-Data_patterns_for_generative_AI_applications_0.png) 这些模式包括利用预构建的模型、微调模型以及训练定制模型。 ![](https://d1trpeugzwbig5.cloudfront.net/DAT338-Data_patterns_for_generative_AI_applications/images/rebranded/DAT338-Data_patterns_for_generative_AI_applications_1.png) 为了解释向量嵌入的工作原理，演讲者通过将领域数据分割成令牌，并使用LLN生成数字向量，然后在多维空间中找到相似数据的过程进行了阐述。 ![](https://d1trpeugzwbig5.cloudfront.net/DAT338-Data_patterns_for_generative_AI_applications/images/rebranded/DAT338-Data_patterns_for_generative_AI_applications_2.png) 领导者们强调，客户应该选择他们最熟悉的数据解决方案并重用现有技能，因为快速将产品推向市场比数据存储之间的轻微技术差异更为重要。 ![](https://d1trpeugzwbig5.cloudfront.net/DAT338-Data_patterns_for_generative_AI_applications/images/rebranded/DAT338-Data_patterns_for_generative_AI_applications_3.png) 亚马逊云科技正通过不断发展数据战略，支持客户在生成性AI中同时利用结构化和非结构化数据。 ![](https://d1trpeugzwbig5.cloudfront.net/DAT338-Data_patterns_for_generative_AI_applications/images/rebranded/DAT338-Data_patterns_for_generative_AI_applications_4.png) ## 总结在亚马逊云科技的re:Invent上，本次演讲主要讨论了在亚马逊云科技上构建生成性AI应用的数据模式。核心观点是，尽管大型语言模型受到了广泛关注，但自身的数据才是创造真正定制且有用的AI体验的关键要素。演讲者阐述了运用生成性AI的三个主要途径：首先，可以通过使用检索增强生成（RAG）框架来进行上下文工程，将数据库和文档中的相关情境、语义和行为背景整合进基础模型中以提高其功能。其次，可以利用自身的问题和答案数据进行现有基础模型的微调，使模型了解业务领域。即使只有几百个样本，也能产生显著效果。最后，可以在精心挑选的特定领域数据上训练完全定制的模型。这是最耗时的方式，因此建议从RAG或微调开始。演讲者还深入探讨了使用亚马逊云科技服务（如[Amazon Kendra](https://aws.amazon.com/cn/kendra/?trk=cndc-detail)、Amazon OpenSearch等）的RAG架构，并强调了正确处理数据存储、安全、合规和管理的重要性。总之，关键在于从RAG出发，然后根据需要扩展到微调和专业培训。然而，最重要的还是要关注数据的准备，因为这是将AI应用与其他应用区分开来的关键。借助亚马逊云科技的数据和ML服务，但始终要铭记，数据才是关键。 ## 演讲原文 ## 想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！ [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处")，一键获取亚马逊云科技全球最新产品/服务资讯！ [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处")，一键获取亚马逊云科技中国区最新产品/服务资讯！ ## 即刻注册亚马逊云科技账户，开启云端之旅！ [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家