关键工作负载弹性分析的一致方法

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 在本讲座中,您将了解弹性分析框架,以及如何应用该框架来制定一致且可重复的流程,以分析工作负载。了解如何发现故障模式以及它们可能对工作负载产生的影响。在设计流程和生产中使用这种方法可以帮助您考虑潜在的故障模式,并通过预防和纠正缓解措施进行设计。此外,在本环节中,您还可以了解 [Amazon Route 53](https://aws.amazon.com/cn/route53/?trk=cndc-detail) Application Recovery Controller 团队如何对其服务进行弹性分析。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 亚马逊云科技的演讲者,产品经理约翰·费尔门塔(John Fermenta)首先向观众介绍了自己。他是亚马逊云科技韧性基础设施和解决方案团队的一员,负责为客户提供诸如应用恢复控制器等服务,以帮助数百万客户提高其在多个区域和可用性分区上的复杂应用程序的韧性。 为了阐述这一观点,约翰讲述了一个源自二战时期的故事。该故事描述了如何根据从任务返回的飞机上失踪的子弹孔来确定在AP 38 Lightning远程战斗机舰队上添加装甲的位置。然而,统计学家亚伯拉罕·瓦尔德(Abraham Wald)指出,他们正在研究的是那些已经返回到基地的飞机——那些在发动机等关键部位被击中但没有返回的飞机。这个故事强调了了解系统漏洞并做出适当权衡以提高韧性的重要性,而不是仅依赖于表面的分析。 接着,约翰分享了他的团队在过去一年里通过与大量客户的互动所开发的韧性分析框架(RAF)。RAF为组织提供了一个可重复的过程,以便彻底评估他们在亚马逊云科技上运行的工作负载,并采取主动措施来提高其韧性。它引导用户朝着能够更优雅地处理不同失败场景(如区域性故障或可用性区域损害)的恢复性架构发展。 RAF的核心是SEAMS模型,它将影响韧性的五种常见失败模式分为五大类:共享命运、过度负载、过度延迟、配置错误/错误以及单点故障。通过考虑这些不同的失败如何影响工作负载,组织可以采取主动方法来提高亚马逊云科技的韧性。 约翰通过讲解如何实际应用RAF来分析亚马逊云科技的工作负载。他首先深入了解了工作负载组件,如EC2实例、RDS数据库、EBS卷以及它们之间的交互。他将分析重点放在驱动业务价值的最关键用户故事上。接下来,他有系统地应用SEAMS模型,根据架构确定潜在的故障模式。对于每个识别出的故障,他要考虑在亚马逊云科技中实施缓解措施所涉及的各种权衡——成本、复杂性、一致性、延迟等。同时,他评估每个故障的可能性和潜在影响,以便确定最需要解决的优先级。他还定义了如何在导致中断之前将其视为领先指标来观察故障。最后,他实施了预防措施,如节流或负荷削减,以避免故障,并在发生故障时采取纠正措施,如自动扩展或自动回滚。 然后,约翰将演示交给同事Mike Haiken,以提供使用RAF分析亚马逊云科技客户运行的关键工作负载的实际案例。 Mike描述了如何使用“持续工作”模式来防止对元数据数据库的过度加载,这会导致消耗分片数据库服务的所有工作节点上的级联故障。这种权衡是即使在流量低时也会在系统中增加额外的负载。 对于希望跨三个区域实现零数据丢失并使用亚马逊云科技数据库进行多区域同步复制的客户,他们选择了异步复制而非同步复制,以提高可用性而无需跨区域的共享命运。这意味着接受最终一致性的权衡。 另一个例子是使用“对冲”来并行查询两个或三个冗余存储服务,以减少因偶尔慢速系统导致的尾端延迟。该客户在亚马逊云科技上运行分布式存储系统,其中数据在存储节点上复制,请求随机路由。对冲允许使用最快的响应,防止慢节点影响延迟。这种权衡是额外请求的增加成本。 迈克尔还探讨了一个案例,涉及使用故障隔离部署单元来限制一个客户在向每个可用区(AZ)的EC2实例部署的同时,跨三个可用区的坏版本的影响范围。这导致了跨可用区(AZ)的协调需求,使得部署速度变慢且变得更复杂。 在最后一个示例中,迈克尔展示了如何在亚马逊云科技托管的电子商务网站上实现优雅降级。这样,即使一个微服务出现故障,也不会导致整个网站及其所有组件(如产品图片、购物车添加、建议、兴趣和促销)瘫痪。这需要在所有服务中构建降级功能的能力,这意味着需要提前投入大量资源。 在这些展示了亚马逊云科技在实际权衡和缓解措施方面的实际应用的例子之后,约翰的同事迈克尔·格隆尼克走上了舞台,解释了亚马逊云科技是如何在其内部关键服务,如应用恢复控制器上实施RAF的。该服务利用亚马逊云科技的基础设施,横跨数百万资源和负载均衡器,以提供即使在两个受损区域或一个分区区域的极端情况下也能达到100%的SLA。 迈克尔强调,采用RAF需要一个获得高管支持的计划,以便分配必要的工程资源。它与那些对弹性充满热情的团队成员一起工作得最好,并且在与现有运营过程集成时具有最大的影响。 迈克尔分享了一个例子,通过RAF分析,他的团队识别并移除了一个非关键依赖项,这个依赖项仍然可能在快速扩展应用程序的能力上产生意外的风险。如果没有RAF鼓励的主动应对风险的思考,这种风险可能不会被注意到。 总的来说,他建议将RAF用于在亚马逊云科技上运行的关键任务和复杂应用程序,因为这些应用程序不仅需要进行分析,还需要对分析所确定的改进措施采取行动。 最后,韧性分析框架为组织提供了一个可重复的过程,以彻底评估在亚马逊云科技上运行的关键、复杂工作负载,并进行有根据的权衡,以提高弹性。虽然采用RAF需要投资资源,但通过采取主动的弹性方法,组织可以通过在亚马逊云科技上识别可能否则会被忽略的漏洞并获得解决它们的路线图,从而实现巨大的价值。RAF使组织能够将弹性转变为一段持续的旅程,而不仅仅是一个一次性目的地。 **下面是一些演讲现场的精彩瞬间:** 领导者探讨了一种新型弹性分析框架,该框架由团队合作开发,旨在增强系统对常见故障的应对能力。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_0.png) 他们强调了在设计故障隔离边界方面的关键作用,以便限制故障影响范围,确保具备足够应对需求的能力,并实现及时输出以满足客户需求。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_1.png) 为了理解工作负载,需要研究代码、基础设施、数据存储以及外部依赖之间的关系。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_2.png) 在实施弹性策略(如冗余和高可用性部署模式)的过程中,领导者需考虑成本、复杂性、运营负担以及一致性之间的平衡。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_3.png) 快速从失败部署中恢复的关键在于采用独立的可用性区域架构,从而实现在不同区域间转移流量。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_4.png) 通过实施弹性分析框架,团队可以不断提升应用程式的弹性表现。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads/images/rebranded/ARC313-A_consistent_approach_to_resilience_analysis_for_critical_workloads_5.png) ## 总结 该视频详细介绍了弹性分析框架(RAF),这是一种可重复的方法,用于评估和改进关键工作负载的弹性。它概述了如何对工作负载进行建模,使用SEAMS类别(共享命运、过载、过度延迟、错误配置/错误、单点故障)来识别潜在的故障模式,评估可能性和影响,考虑权衡因素如成本和复杂性,定义可观察性指标,并设计预防和纠正措施。 通过现实生活中的案例,演讲者展示了如何使用RAF来解决一些实际问题,如多区域部署中的级联故障、分布式存储中的尾延迟以及故障部署的破坏范围等。尽管这个过程需要大量的工程投入,但它培养了一种弹性思维,并揭示了改进的机会。RAF在那些复杂且关键的应用程序中具有最大的价值,因为这些应用程序需要积极的弹性规划。通过实施RAF,可以培养一种将弹性视为持续过程而非一次性目标的文化。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭