像玩一样练习:亚马逊如何将弹性提升到新的高度

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 Amazon Prime Video 是大规模持续弹性和混沌工程的先驱之一。他们以“放眼全球,立足本土”为座右铭,建立了一套行之有效的流程,以建立和扩展客户喜爱和信赖的高可用性服务和弹性产品的可持续文化。本讲座重点介绍 Amazon Prime Video 如何通过将卓越运营、服务弹性、可观察性和报告作为首要任务来满足客户的高要求。它深入探讨了 GameDays、彩排和混沌工程,以及运营就绪度分数的定义,该评分可推动各领域的恢复能力并提高客户满意度。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1900字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 简介:本次演讲的第一位讲者,Prime Video可靠性与弹性工程总监Olga Hall,首先揭示了停机时间所带来的惊人成本。据她的数据显示,各行业平均每小时损失高达30万美元,而在遭遇停机的公司中,有46%的公司甚至无法为客户提供正常服务。例如,Prime Video的客户可能无法正常观看内容。这些令人警醒的数字凸显了在系统中引入弹性以降低对客户干扰性中断和影响的重要性。 Olga Hall建议我们从成功的体育团队及其“弹性手册”中汲取应对不可预测环境的见解。职业体育团队在高压环境下精心训练以争夺冠军,他们培养了在压力下完美执行的能力。技术团队也可以从中学习,努力培训和准备应对峰值流量事件和未计划的场景。 Prime Video拥有为全球数百万并发观众直播主要体育赛事的丰富经验。例如,今年观看周三夜NFL比赛的观众数量增长了26%,超过1200万人。通过这些大规模流媒体操作,他们亲身体验了准备峰值流量事件与职业体育团队系统地准备锦标赛的方式非常相似。通过从中吸取经验教训,Prime Video已经创建了自己的弹性手册,以便与其他团队分享可用于增强运营弹性的最佳实践。 在本次演讲的第二位讲者、亚马逊云科技金融和联邦部门首席技术官Lauren Thomason的介绍下,我们了解到她还在全球范围内负责亚马逊云科技的混沌工程。这两位演讲者都带来了在大规模流媒体传输和弹性技术方面的丰富经验。 演讲者强调,对于在压力下表现的团队来说,建立一个“成功心态”至关重要。观察成功的体育团队,他们的一个显著特点是他们在与现场比赛相同的紧张条件下练习,并在实践中以同样的精确执行来对待现场比赛。这培养了在真实比赛中表现出色所需的关键肌肉记忆和可视化能力。 亚马逊Prime视频的胜利文化核心原则是对“可用性作为首要功能”的高度关注。可用性不仅仅是口号,而是融入工程文化结构的首要任务。加强可用性的举措将获得专门的资源和支持。 每年,亚马逊Prime视频都会设定可用性目标并分配适当的资源来实现这些目标。提高可用性的工作流优先于特性开发。负责体育的副总裁经常强调可用性的重要性以及公司为客户观看周四夜足球、英超联赛和其他体育赛事提供无缝流媒体体验的承诺。 亚马逊Prime视频已经制定了一个全面的可用性定义,涵盖了除了软件之外的多个方面。演讲者分享说,可用性意味着“分布式系统每个关键组件共同合作以应对风险的品质。”这个定义强调了可用性依赖于协同工作的人、过程和技术。 亚马逊Prime视频将其弹性计划结构化为三个高级别的工作流: 1. 运营卓越 - 专注于操作的一致性和可靠性的项目 2. 服务弹性 - 建立应急措施、故障切换以及扩大和缩小的能力 3. 可观测性和报告 - 实时了解系统运行状况的能力 使用的一种关键机制是“操作就绪评分”,这是每个团队的定义和跟踪指标。这个可衡量的标准可以作为随着时间的推移提高可用性的可衡量的关键绩效指标。 安全性保障 The deployment process, expansion plans, event monitoring and management, alerts and observability, chaos test results, and availability reports are all components of the security measures implemented by Prime Video. For example, the team reviews whether the system correctly monitors anomalies through CloudWatch alerts. Rallying the Team When determining which services are worthy of investment to improve operational readiness, Prime Video considers factors such as customer impact and downstream dependency relationships. Components that directly serve customers or have many upstream and downstream dependencies are prioritized for maximum benefit. For example, the new feature "Fast Rewind," which showcases highlights of fan videos, is considered a key aspect of customer experience. As a result, it receives priority for resilience investments. Developing Shared Goals One important first step is to rally the team around shared goals. This focus lays the groundwork for later tactical planning and visualizing pathways to achieve those goals. Predictable: Training for Known Events In preparation for major events, some inputs can be predicted based on historical data and algorithms. At Prime Video, three key metrics determine peak streaming loads during known events: - Concurrent streams - The number of simultaneous viewers, which drives infrastructure scaling - Stream starts - The rate at which new viewers join per second, which increases load These measures allow Prime Video to prepare for known events with greater precision and efficiency. 关键词页面的流量、如注册和回放开始 利用过去的数据,Prime Video预测即将举行的活动峰值期间这些关键指标的预期负载。例如,他们可能会预测一场重大足球比赛的1200万并发流。这些预测使得能够按照活动所需的规模进行负载测试。 执行“比赛日” Prime Video每周进行三次大规模的负载测试,称为“比赛日”。团队负责调整其服务的负载生成配置以匹配预期的峰值负载。一个中央团队将这些单独的服务负载模型组合成一个模拟现实世界条件的总体负载概况。 这些频繁的负载测试使服务保持针对峰值需求的优化。自动运行它们可以让工程师监控仪表板,而无需手动操作工具。在负载下暴露的故障可以揭示弱点,从而快速确定新问题的优先级并将其添加到开发积压中。 不可预测的:未知因素的实验 除了针对预测的负载级别进行训练外,Prime Video积极进行实验以发现未知的弱点。这些实验包括: - 特制的实验 - 用于新场景的自定义测试 - 管道测试 - 在CI/CD管道中注入故障 - 安排的测试 - 如固定周期的混沌工程 - 战争游戏 - 模拟事故响应情况 从低风险开始 在最初引入故障测试时,Prime Video建议从重启EC2实例的自动扩展组等低风险故障开始。这在进行中风险如跨服务的网络延迟注入之前建立信心。 中风险示例:管道测试 一种中风险技术是下游依赖的管道测试。例如,通过在不需更新SLA的小改动的情况下测试服务之间的延迟来测试弹性。 高风险示例:区域故障切换测试 一项高风险实验是协调区域故障切换。Prime Video测试将负载跨越具有全球分布的团队的区域进行切换。 使用亚马逊云科技故障注入服务支持实验 亚马逊云科技故障注入服务支持测试云基础设施故障,如EC2和EBS停机。最近添加的功能可以模拟区域性灾难和可用性区域故障,以测试灾难恢复配置。 事故严重程度随时间改善,反映了应对措施实施后的效果;平均无故障时间随着弱点被解决而增加;平均恢复时间随着团队获得经验而降低。 要记住的是,将弹性能力内化为肌肉记忆,使团队在压力下能可靠地执行。这包括定义目标,制定实现计划,熟悉正常行为模式和偏差,使用负载测试和故障注入,直到响应成为常规,并保持操作手册的更新,使所有人明白自己的角色。实现弹性的过程就像举办一场成功的超级碗比赛。 演讲者总结道,适应性能力的核心在于将练习视为游戏般的互动以及对游戏的类似态度。这包括了对于可预测事物的积极训练以及对于不可预测事物的不断探索。通过分析成果并铭记所学的经验教训,这些知识会被转化为肌肉记忆,从而使自己在压力环境下表现得更加出色。 总结来说,本次演讲根据Prime Video在重大体育赛事直播中面向数百万并发观众的实践经验,为我们提供了一份实用的适应性行动指南。团队可以通过采用培养胜利心态的策略、针对已知的情境进行训练、尝试探索未知的领域、从测试结果中进行分析和反思以及形成肌肉记忆等方式来实施这份行动指南。这将有助于团队在压力环境下稳定地发挥,同时帮助技术公司尽可能地减少因停机时间和故障而影响客户的问题。 **下面是一些演讲现场的精彩瞬间:** 领导者对Prime Video在周四夜间足球比赛播放方面所取得的成功表示赞赏,并将应对峰值观看量的工作比喻为筹备超级碗。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_0.png) 领导者强调,在追求目标的过程中,培养胜利心态以及训练团队应对意外挑战的重要性不言而喻。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_1.png) 领导者对其风险管理体系表示赞赏,该体系带来了信心,使得人们相信上下游依赖关系的变化不会破坏整个系统。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_2.png) 领导者分享了他们在模拟二维码攻击场景下如何应对问题的经验,如同处理真实事件一般进行响应计划的测试。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_3.png) 领导者认为,在事后审查过程中,邀请经理和高级领导者参与至关重要,以便从中汲取关键教训并为未来的优先事项做出重要决策。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_4.png) 领导者重申了回顾根本原因、设定目标、制定基于可预测模式的策略、进行模拟以了解系统在负载下的运行情况以及确定并测试关于系统行为假设的重要性。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_5.png) 领导者认为,工程师们应如运动员般不断锻炼和提升他们的技能。 ![](https://d1trpeugzwbig5.cloudfront.net/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights/images/rebranded/ARC316-Practice_like_you_play__How_Amazon_scales_resilience_to_new_heights_6.png) ## 总结 亚马逊Prime Video的一项重要任务是为体育爱好者提供无缝且高质量的观看体验。为实现这一目标,他们借鉴职业体育团队的教训,以提高应对高峰事件的能力。 首先,建立一种胜利心态至关重要,通过共同的目标来实现。可用性被视为首要关注,优先于其他一切。项目专注于运营卓越、服务弹性、可观察性和报告。操作就绪分数可以追踪部署安全性、代码覆盖率、就绪审查和错误纠正。 其次,他们需要像在比赛中一样进行实践。对于可预测的输入,如峰值并发流,他们通过频繁的自动化负载测试来训练系统。对于不可预测的故障,可控实验会暴露弱点。失败会引发分析以提取经验教训。 最后,他们需要像在实践中一样进行比赛。场景和预案被铭刻在肌肉记忆中,以便团队能够不假思索地实时响应。事后回顾会为未来迭代固化改进。 口号很简单:像比赛一样练习,像练习一样比赛。这建立了前瞻性的可靠性,以便不间断地为热情的粉丝提供服务。就像冠军体育团队一样,弹性的赢得是通过精心准备得来的。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭