亚马逊OpenSearch:无需ETL就能实现强大的向量搜索

云计算

re:Invent

## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读欢迎加入我们,深入了解本周亚马逊OpenSearch服务的最新公告。了解更多关于亚马逊OpenSearch[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)的向量引擎新功能的细节,并了解如何高效地存储和查询数十亿个向量嵌入,而无需管理向量数据库基础设施。听听关于新的零ETL集成的全部内容,该集成重构了OpenSearch查询引擎,以支持对存储在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)中的数据进行分析,以及与[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail)的零ETL集成。最后,看看新的实例类型如何帮助您获得更高的性价比,同时也提高了数据的可靠性和持久性。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华，共1000字，阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。</font> 首先，将企业数据提取为捕捉语义意义的向量嵌入；然后，将这些向量加载到向量数据库中；接着，将用户的查询转换为向量；随后，从数据库中检索相似的向量；最后，将结果输入到生成性的LLM中以创建回应。高性能向量搜索成为了关键驱动力。在OpenSearch服务上引入了向量引擎，这是一个完全管理的向量数据库。用户可以轻松地创建数据的可视化表示，然后存储数十亿个向量，以实现毫秒级的上下文结果快速相似性查询。该系统是基于OpenSearch[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)构建的，可以独立自动调整存储和计算规模。向量引擎采用hnsw算法进行近似最近邻搜索。它支持欧几里得和余弦相似度。高效的过滤和复合查询类型也可用。入门非常容易——创建一个向量集合和索引，加载向量，然后查询语义匹配。实时向量更新处理得非常出色，不会降低搜索性能。速度非常惊人——1OCU可以在仅毫秒内处理200万个向量，准确率99%。包括强大的安全性、加密和访问控制。成本通过自动缩放OCU来优化，而没有副本的新2OCU部署可以降低成本50%——非常适合实验。一个令人兴奋的使用案例是与[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)集成，它将向量自动传入到向量引擎中，以简化RAG应用程序的构建。还有与SageMaker和Amazon Lambda的集成。总的来说，向量引擎为应用程序提供了轻松添加大规模向量相似性搜索的方法。关注点转向优化Opensearch成本，推出了R6g实例系列。它解除了索引与复制之间的耦合，以提高效率。通常，主分片必须在其他节点完成复制之前确认写入。R6g跳过这一步，直接从主节点写入S3。复本异步地从耐久的S3存储中获取数据。这将索引速度提高最多30%，同时还能利用S3著名的11 9持久性。令人惊讶的是，R6g甚至可以直接从S3自动恢复并重建失败的索引。通过消除复制开销，客户可以享受更好的性价比。R6g非常适合用于日志分析工作负载——数据直接落地到成本效益高的S3存储中。集群可以最小化为仅在R6g实例上的主要分片，以降低成本。接下来，演讲者展示了备受期待的零ETL S3集成。客户一直在要求从OpenSearch直接访问数据湖，而无需将所有内容都摄入进去。这种功能允许透明地查询和分析位于[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)存储桶中的数据，而无需执行任何ETL操作。该架构利用[Amazon CloudWatch](https://aws.amazon.com/cn/cloudwatch/?trk=cndc-detail) Glue数据目录作为S3中数据的索引。在Glue中的表会出现在OpenSearch内的数据源中。为了加速查询，用户可以在这些表上创建跳跃、物化或覆盖索引： - 跳跃索引能提升即席直接查询的速度。 - 物化视图优化可视化和仪表板聚合。 - 覆盖索引能将热数据快速摄入到OpenSearch中以实现更快的访问。现场演示展示了如何通过SQL在OpenSearch中查询S3数据源，并通过跳跃索引来提高查询速度。一个仪表板直接从S3存储直接可视化VPC流量日志。这样能在不进行额外ETL的情况下解锁PB级数据以进行分析。最后，演讲者总结了一些关于如何在优化成本的同时扩展Amazon OpenSearch服务功能以支持AI应用的策略。Vector Engine提供一个易于管理的向量数据库，以在规模上支持语义搜索。使用R6g实例可以将日志工作负载的成本降低30%。与[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)的集成可以消除数据湖分析的数据摄取障碍。总的来说，这些功能让Amazon OpenSearch服务对寻求创新新兴技术的组织来说更具多功能性和成本效益。感谢观众的参与，并鼓励他们提供反馈。 **下面是一些演讲现场的精彩瞬间：** 一位领导者针对观众与生成性人工智能的需求以及对于成本优化的关注进行了一次民意调查。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_0.png) 该领导者着重强调了加快选项的优势，例如跳过索引、物化视图和覆盖索引，以便针对不同场景的OpenSearch服务分析需求。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_1.png) 演讲者正在进行实时演示，展示如何设置OpenSearch与亚马逊云科技Lake Formation之间的连接，并强调所提供的详细文档有助于解决所需的IAM角色问题。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_2.png) 领导者展示了如何在[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)中设置跳过索引，以帮助工程师更快地访问数据。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_3.png) 领导者还展示了如何使用OpenSearch服务在初始查询预热实例后进行快速的后续查询。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_4.png) 安迪·贾西自豪地宣布了一系列新的OpenSearch功能，包括[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)向量数据库引擎和S3集成，以提高客户的性价比、性能和可靠性。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service/images/rebranded/ANT353-Vector_database_and_zero_ETL_capabilities_for_Amazon_OpenSearch_Service_5.png) ## 总结在2022年re:Invent上，亚马逊云科技宣布了对Amazon OpenSearch服务的重大升级，使得客户能够轻松构建高级的AI驱动搜索体验，同时优化成本。首先，他们引入了一种全新的向量数据库引擎，可以高效地存储、管理和搜索向量嵌入，从而实现基于上下文的搜索和对话式体验。这种引擎具有很高的可扩展性，支持实时添加和删除向量，并与[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)和[Amazon Kendra](https://aws.amazon.com/cn/kendra/?trk=cndc-detail)紧密集成。其次，亚马逊云科技为OpenSearch服务集群推出了新的R6g实例系列，相较于现有实例，其价格性能提高了30%，这得益于解耦合索引和复制等创新技术。R6g实例还将数据直接写入S3以实现持久性和自动恢复，使其非常适合用于日志分析工作负载。最后，OpenSearch服务现已与[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)实现了零ETL集成，使得可以直接在OpenSearch服务中查询存储在S3桶中的数据，无需复杂的摄入管道。通过使用跳过索引、物化视图或覆盖索引等方法，可以提高性能。这些功能共同帮助OpenSearch服务客户在其S3数据湖上构建复杂的AI搜索应用程序，同时通过[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)架构和新的高性能实例类型优化成本。亚马逊云科技持续创新，为客户提供最佳的搜索工作负载价格性能。 ## 演讲原文 ## 想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！ [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处")，一键获取亚马逊云科技全球最新产品/服务资讯！ [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处")，一键获取亚马逊云科技中国区最新产品/服务资讯！ ## 即刻注册亚马逊云科技账户，开启云端之旅！ [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家