OpenSearch 2.15版本发布

ElasticSearch

Amazon OpenSearch Service

Amazon OpenSearch Serverless (Preview)

Vector Engine for OpenSearch Serverless

# OpenSearch 2.15版本发布 OpenSearch是一个基于Lucene打造的分布式搜索引擎，具有Apache 2.0 License，它的前身是发起自2019年的open-distro-elasticsearch，在2021年独立成为一个全新的project并且重新命名为OpenSearch，旨在提供完全开源无需提供授权费用的，由开源社区共建的，面向搜索，日志，监控，安全，可观测性等场景的分布式引擎。 * OpenSearch 官方网站：[opensearch.org](https://opensearch.org/docs/latest/) * OpenSearch Github地址：[OpenSearch](https://github.com/opensearch-project/OpenSearch) * OpenSearch 论坛：[forum.opensearch.org](https://forum.opensearch.org/) OpenSearch 2.15版本于近日发布了，此次发布在集群的稳定性、可用性和性能上都有提升，同时在[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)方面还提供了新的功能并且提高了易用性。您可以使用[OpenSearch Playground](https://playground.opensearch.org/app/home#/) 试用最新的版本，如需全面了解新功能，请查看[发布说明](https://github.com/opensearch-project/opensearch-build/blob/main/release-notes/opensearch-release-notes-2.15.0.md)。 ## 1.成本与性能优化 #### Neural search支持对文档批量预处理在neural search的使用场景中，针对text\_embedding和sparse\_encoding两种类型的processor，2.15版本中支持[批量预处理](https://opensearch.org/docs/latest/ingest-pipelines/processors/index-processors/#batch-enabled-processors)，可以同时处理一批documents生成embedding或sparse encoding，以提高性能。未来的版本中会对其它的processor也支持批量预处理。 #### Hybrid search 并行化处理 OpenSearch 2.10 中引入了混合搜索hybrid search，它将BM25关键字检索或neural sparse encoding搜索与语义向量搜索相结合，从而提供比单独使用其中一种技术更高质量的结果，是文本搜索的最佳实践。OpenSearch 2.15 通过在流程的各个阶段并行运行两个子搜索来降低混合搜索延迟，延迟减少了高达 25%。 #### 通过 SIMD 支持精确搜索，提高搜索性能 OpenSearch 2.12 引入了对 JDK21 的支持，让用户可以在最新的 Java 版本上运行 OpenSearch 集群。在此升级的基础上，OpenSearch 2.15 进一步提升了性能，增加了对单指令多数据 (SIMD) 指令集的支持，以实现精确搜索查询。之前的版本支持 SIMD 进行近似最近邻搜索查询，集成 SIMD 进行精确搜索不需要额外的配置步骤，从而实现无缝的性能改进。用户可以期待查询延迟显著减少，搜索体验更高效、响应更快，性能比非 SIMD 实现快约 1.5 倍。 #### 节省向量搜索存储容量 OpenSearch 2.15 引入了在使用 Lucene 引擎进行矢量搜索时禁用doc values knn field。这不会影响 knn 搜索功能；例如，您可以继续使用 Lucene 引擎执行近似最近邻和精确搜索，就像以前的 OpenSearch 版本一样。在我们的测试中，禁用doc values后，我们发现分片大小减少了约 16%。我们计划在未来的版本中将此优化扩展到 NMSLIB 和 Faiss 引擎。 #### 使用通配符字段wildcard field更有效地查询数据标准text类型字段将文本拆分为 token 并构建 token 索引，使搜索非常高效。但是，许多应用程序需要搜索任意子字符串，而不受 token 边界的限制，而 token 索引无法很好地支持这一点。OpenSearch 2.15 引入了wildcard字段类型。此字段类型使您可以选择构建索引，以便在没有自然 token 结构的字段（例如日志）或不同 token 数量极大的情况下提供更高效的搜索。 #### Derived fields OpenSearch 2.15 引入了派生字段derived fields，派生字段的值是在查询时计算的，因此您可以通过_source 实时执行文档上的脚本来添加或操作已编入索引的字段，而无需单独索引或存储字段。这使得查询可以独立于写入时使用的字段名称，因此相同的查询可以用于以不同方式写入的数据，从而实现动态数据转换和丰富。Derived fields还可以通过避免直接索引来减少存储要求，并可用于计算用于过滤或报告的其他字段。 #### 提高Cardinality聚合的性能 Cardinality aggregation是一种常见的度量聚合技术，可对给定字段中的唯一值进行近似计数。OpenSearch 2.15 引入了一种称为动态修剪的新优化，可以显著提高cardinality aggregation的性能，尤其是在基数较低的字段上。根据对Big5 工作负载的观察，此优化可将执行这些聚合时的延迟提高 100 倍。在这个[PR](https://github.com/opensearch-project/OpenSearch/pull/13821)中我们可以看到基于 Big5 基准测试的综合结果。 ## 2. 稳定性、可用性以及弹性优化 #### 使用滚动升级迁移到远程存储远程备份存储remote-backed storage提供了一种防止数据丢失的新方法，即自动创建所有索引事务的备份并将其发送到远程存储。迁移到远程备份存储是 OpenSearch 2.14 中作为一项实验性功能引入的，在 OpenSearch 2.15 中已正式启用该功能，可用于生产环境。现在，您可以通过滚动升级机制将基于文档复制的集群迁移到远程备份存储。滚动升级（有时称为节点替换升级）可以在正在运行的集群上执行，几乎不会停机。节点可以单独停止并迁移到位，或者，可以由远程备份主机一次停止并替换一个节点。在此过程中，您可以继续索引和查询集群数据。 #### 实验性优化：减少集群状态发布的开销 OpenSearch 2.15 增加了一项实验性功能，允许用户通过远程存储启用集群状态发布。传统上，集群主节点处理集群状态的更新，然后通过本地传输层将更新后的集群状态发布到其它节点。启用远程存储状态发布后，集群状态在每次状态更新期间都会备份到远程存储。这允许其它节点直接从远程存储获取更新的状态，从而减少了集群主节点发布时的内存和通信开销。 #### 监控top N 查询以提高搜索查询性能可见性 OpenSearch 2.15 对[top N 查询监控](https://opensearch.org/docs/latest/observing-your-data/query-insights/top-n-queries/)特性引入了一些高级功能，增强了查询性能分析和监控。除了按延迟显示 top N 查询之外，用户现在还可以根据 CPU 和内存使用情况配置和检索 top N 查询。此版本还允许用户将query insight导出到本地索引等目的地，从而保留历史 top N 查询数据，以便更好地进行性能分析和识别恶意查询。现在 top N 查询结果中还包含其他指标和信息，例如任务级资源使用情况和基于x-opaque-id的 top N 查询的源跟踪。这些功能为用户提供了对查询性能的扩展可见性，从而有助于更有效地进行优化和故障排除。 ## 3. 向量检索与机器学习功能增强 #### 在已有的非knn index上启用向量检索使用[flow framework](https://opensearch.org/docs/latest/automating-configurations/api/index/)，用户现在可以通过运行模板，在已有的非knn index上增加knn 向量字段。使用reindex工作流功能为用户提供了一种简单的方法，可以在现有索引上启用向量和混合搜索，而无需花费时间和资源手动进行reindex。 #### 使用集成的 AI 服务作为检测模型毒性的guardrails 不同于之前的版本，只能通过正则表达式创建guardrails来检测模型的恶意输入或者输出，在OpenSearch2.15 中，用户可以配置远程模型作为guardrails。这让用户可以创建更强大的guardrails，使用最先进的 AI 服务或模型来更准确地检测恶意行为。 #### 启用本地模型进行 ML 推理处理 [ML inference processor](https://opensearch.org/docs/latest/ingest-pipelines/processors/ml-inference/) 使用户能够使用来自任何集成 ML 模型的推理能力来丰富ingest pipeline。以前，该processor仅支持远程模型，通过模型 API提供商，例如 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)、OpenAI、Cohere 和 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)来连接模型。在 OpenSearch 2.15 中，该processor与本地模型兼容，这些模型运行在集群的节点上。 ## 3. 易用性提升 #### OpenSearch-Dashboards中多个插件支持同时连接多个数据源 OpenSearch 2.14 增加了对九个 Dashboards 插件的支持，在2.15版本中我们增加了对更多插件的支持，以帮助您管理跨 OpenSearch 集群的数据并将可视化效果组合到单个仪表板中。现在支持另外四个 Dashboards 插件：Metrics Analytics、Security Analytics、Dashboards Assistant 和 Alerting。此版本还添加了一个核心插件 Timeline。除此此外，OpenSearch 2.9 中引入的功能允许您为可视化效果构建monitor和anomaly detector，现在也支持使用多个 OpenSearch 集群。

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家