Amazo S3 是如何实现 99.999999999% 的持久性和可用性的？

人工智能

负载均衡

Amazon Simple Storage Service (S3)

生成式人工智能

亚马逊简单存储服务（[Amazon S3](https://aws.amazon.com/s3/features/?nc1=h_ls?trk=cndc-detail)）是最广泛使用和可靠的云存储服务之一，提供高度可扩展和耐用的存储。许多 S3 客户的关键要求是确保其数据的最大正常运行时间和可用性。在本文中，我们将深入探讨 S3 如何通过其稳固的系统架构和实现方式实现超过99.99%的可用性。在这份综合指南中，我们将探讨关键的 S3 可用性架构，包括： - 跨[可用区](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-regions-availability-zones.html?trk=cndc-detail)（AZs）的数据复制 - S3 在提交写入之前，将数据同步复制到至少3个可用区。 - 智能请求路由 - S3 将流量路由到最近的设施，以获取所请求的数据，从而最大限度地减少延迟。 - 快速故障检测 - S3 使用健康检查，在几秒钟内**检测故障**，并触发恢复。 - 自动恢复 - S3 保留额外的容量，以处理从失败设施重定向的流量。 - 分区和负载均衡 - S3 将存储桶**分区**，以包含故障并平衡负载。 - 强一致性模型 - S3 提供写入后一致性，并防止陈旧数据。 ### 背景 S3 将数据存储在桶中,桶充当顶层容器。在一个桶中,数据以对象的形式存储,对象由数据本身、元数据和一个键(名称)组成。为了提供高持久性,S3 会在多个设备和设施之间复制数据。默认情况下,数据会在一个亚马逊云科技区域中的三个可用区之间复制,可用区是区域内的隔离位置。 S3 还会将桶划分为多个分区,并将分区分布在不同的设备和设施上,以确保负载均衡和隔离故障域。这种划分允许透明地处理故障。与 S3 可用性相关的一些关键概念: 1. 复制：这不仅仅是复制。对于 S3 而言，这是一种在亚马逊云科技区域内同步复制数据到三个不同设施的实践。每个设施都充当隔离的区域，确保即使一个设施宕机，其他设施仍然可用。 2. 分区增强稳固性：S3 的存储桶被划分为分区，这些分区分布在不同的设备和设施上。这种持续分区确保了平衡负载，并隔离了故障。 3. 一致性与故障切换：两个基本支柱。S3 优先维护最新的副本（一致性），并在故障时切换到备份副本（故障切换）。 ### **高可用性的重要性** 可用性指系统保持运行和可访问以满足用户请求的时间百分比。对于许多将 S3 用于关键任务数据的组织而言，高可用性至关重要。根据 IDC 的数据，停机时间使企业平均每小时损失25万美元。有了 S3 的架构，潜在的停机时间得到了减少，从而节省成本并防止收入损失。 ### 确保可用性面临的挑战在提供始终可用性方面存在几个关键挑战： 1. 在不影响延迟的情况下在数据中心之间复制写入操作 2. 在几秒钟内进行快速故障检测 3. 无数据丢失地无缝恢复故障 4. 在故障和恢复期间保持读取一致性 5. 随着数据量增加线性扩展在接下来的章节中，我们将探讨 S3 的架构如何应对这些问题。 ### **S3 如何实现高可用性** S3 采用了高度分布式的、优化的存储系统，以实现卓越的可用性。其中关键方面包括： #### **自动故障检测和恢复** 尽管有冗余性,但故障仍然可能发生。为了处理崩溃,S3 使用: - **健康检查:** 每秒进行超过5万次的存储服务器状态检查 - **自我修复:** 通过校验验证自动修复损坏的对象 - **故障转移:** 如果主服务器关闭,在60秒内将流量路由到备用服务器下面是一个 Java 故障转移逻辑示例: ``` if (primaryServer.isHealthy()) { routeTraffic(primaryServer); } else { logError(primaryServer); routeTraffic(secondaryServer); recoverData(primaryServer); } ``` 即使多个服务器离线,这也可以确保服务保持99.99%的可用性。 #### **分区和负载均衡** S3 将存储桶**分区**为多个片段，并在各个设施之间进行分布。这样可以隔离故障并动态平衡负载。每个分区可以处理**每秒5500次请求**。 #### **跨可用区同步复制** S3 在提交写入之前，将数据**同步复制**到至少3个可用区。这确保即使一个可用区完全失败，也不会丢失数据。 #### **强一致性** S3 对新的 PUT 和 DELETE 操作提供写入后一致性。它还可以检测数据损坏，以防止提供陈旧数据。相比行业标准的3-4%，S3 的中位错误率约为**0.01%**。 #### **智能请求路由** S3 确定包含所请求数据的最近设施，并相应地路由流量。这样可以在平衡负载的同时最大限度地减少延迟。S3 可以维持超过**150万次每秒**的请求流量。 ### **实际案例** 让我们看看 Acme 公司如何利用 S3 的可用性来处理其关键工作负载： - 在跨越可用区 A、B、C 的 S3 存储桶中存储的分析数据有**500**个分区 - 可用区 A 遇到严重故障，流量继续从可用区 B、C 中进行 - 现在写入只复制到可用区 B、C - 一旦A恢复，S3 会重新平衡分区以减少热点 - 在整个故障期间，Acme 的数据仍然可用 ### 结论在本文中，我们探讨了 S3 的内部系统架构，该架构实现了极高的可用性。关键方面包括 - 多可用区架构隔离故障并提供低延迟 - 自动恢复简化了故障期间的操作 - 分区可以隔离故障并实现重新平衡 - 强一致性防止提供陈旧数据通过深入理解 S3 的可用性架构，开发人员可以构建高度弹性的云原生应用程序。在评论中告诉我，如果您对这个主题还有其他问题！我很乐意进一步讨论。

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家