建立优化客户复原之旅的实践方法

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 弹性是一个过程,它既是一种思维方式,也是一种技术解决方案。一切最终都会失败,将对业务利益相关者的影响降至最低是任何公司的首要目标。帮助客户将其应用程序和服务转变为“永远在线、永远可用”的心态至关重要。了解亚马逊云科技合作伙伴如何通过弹性最佳实践在关键工作负载的设计、操作和恢复阶段发挥重要作用;亚马逊云科技专家的提示和技巧;以及如何将弹性训练提高到一个新的水平。本论坛面向亚马逊云科技合作伙伴。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 在2022年亚马逊云科技re:Invent上,一场名为“构建实践以优化客户适应能力之旅”的会议邀请了来自亚马逊云科技合作伙伴组织的Steph Rowan和Diego Del Mole作为演讲嘉宾。他们热情地欢迎了超过1000名与会者,并对有机会启动本周的活动感到荣幸。 Steph表示,在接下来的一个小时里,他们将讨论亚马逊云科技的适应能力——如何定义它,亚马逊云科技如何与客户和合作伙伴谈论它,他们在市场上看到的情况以及如何帮助合作伙伴解决客户面临的挑战。接下来,Diego将深入研究构建适应能力的技术最佳实践,涵盖评估、可观察性、devops、高可用性、灾难恢复和运营等方面。最后,他们将介绍亚马逊云科技为支持合作伙伴满足客户需求的能力提供的项目和工具,包括适应性中心(Resilience Hub)和灾难恢复服务。 Steph提到,过去三年里,适应能力在re:Invent上的地位越来越重要,无论是主题演讲、分会场还是媒体报道。今年已经有100多个关于适应能力的会议,这表明了其重要性日益凸显。她重点关注了一些她特别感兴趣的议题,包括技术实施、客户故事和针对合作伙伴的内容。与会者可以在活动应用中的关键词“适应能力”下搜索会议,以找到符合他们兴趣的会议。 亚马逊云科技在展厅设有两个专注于适应能力的展位,Steph鼓励人们参观: - 适应能力服务展位 - 在云基础区域,位于第314号展位上的合作伙伴适应能力展位 她还提到他们还将参与在曼达雷湾酒店举行的Builder Cards的互动式学习,在那里人们可以收集一张与适应能力相关的卡片以完成他们的牌组。最后,她建议大家观看RBA周三下午3:30的主题演讲,该演讲也将涉及适应能力。 亚马逊云科技的Steph解释道,根据字典的定义,韧性是指能够轻松应对不幸或变化的能力。亚马逊云科技也是按照这个定义来理解韧性的,即工作负载在基础设施或服务中断后恢复的能力——满足需求并减轻因配置错误或临时问题导致的中断。她总结道,通过设计、运营和恢复方面的最佳实践,可以尽量减少停机时间和影响。关键在于不是完全防止失败,而是在发生时迅速优雅地恢复。 在亚马逊云科技上,韧性与客户的工作负载之间存在一种共享责任模式,就像安全一样。亚马逊云科技负责云的韧性——服务、基础设施、可用性区域。而客户和合作伙伴负责云内的韧性——工作负载架构、运营韧性、可观察性等。Steph指出,客户方面的责任很大,强调了需要合作伙伴的帮助。 为了说明停机时间的影响以及如何应用韧性,Diego分享了一个关于他在早期职业生涯中的故事。那时他负责一个批发公司的ERP系统,这个系统对他们的24/7运营至关重要。Diego小心地设置了监控和保护,以防止服务器崩溃。然而有一天早晨,几个团队因为打印系统在夜间崩溃的问题非常生气地打电话给他。这个系统用于打印运输授权,所以在一个6小时的打印系统停机时间内,1000辆卡车无法上路送货。Diego亲身体验到了停机时间如何严重影响到运营,即使是对被认为不重要的系统。打印系统的中断阻止了货物的交付,破坏了业务运营。 Steph和Diego一致认为,每个人可能都有一个停机时间的恐怖故事,无论是作为受影响者还是责任人。停机时间通常会导致昂贵的意外后果,如收入损失、声誉损害、生产力下降等。随着企业越来越依赖云应用程序,风险将继续增加。这表明为什么客户需要合作伙伴帮助提高韧性。 客户团队正致力于满足网站和应用方面的"全天候"需求。随着分布式系统、频繁发布以及新法规(如GDPR)等趋势的出现,这些因素都加剧了复杂性和负担。合作伙伴可以通过评估、风险分析、监控和devops实践等方式,帮助建立一个弹性的基础。他们可以协助设计高可用性,并利用亚马逊云科技的服务(如S3、DynamoDB和RDS)进行灾难恢复。合作伙伴还可以通过准备计划、错误纠正和停机演练等方法来优化运营。 接下来,Diego深入探讨了技术弹性的最佳实践。他建议合作伙伴首先通过使用Resilience Hub服务来进行全面的评估过程。不仅要询问系统是否具有高度可用性,还要关注了解业务影响、可接受的停机时间和风险。这些信息可以转化为RPO和RTO——客户可以容忍的最大潜在数据丢失或停机时间。评估不同失败如何影响整体运营。同时,使用CloudWatch和合成canary等工具监测基础设施和用户体验,防止出现监测显示一切正常但用户实际上在经历断网情况的“重大失败”。 DevOps也在其中发挥关键作用,通过减少人为错误来实现护栏功能。使用亚马逊云科技的CodeDeploy通过代码部署可重复的变更。在较低环境中严格测试,防止问题进入生产环境。使用如canary deployment等技术先在较小流量部分测试新版本。如果出现问题,最好让5%的用户受到影响,而不是让所有用户受到影响。自动化测试降低了人为事故的可能性。 在设计高可用性时,Diego建议在现代化努力中投资微服务。局部失败好过全面失败。解耦合的微服务允许更好的扩展、重试和故障隔离。利用专为高可用性设计的管理服务,如S3和DynamoDB,它们在不同AZ中可用。从单区域/多AZ开始,因为它可以满足大多数客户需求。只有在使用数据主权、低延迟或对停机时间最敏感的地方才需要使用多区域。 在灾难恢复领域,例如使用亚马逊云科技的备份、引导轻量和热备用等服务,为客户提供了多种RPO/RTO权衡方案。尽管备份和恢复的成本相对较低,但其恢复速度较慢,在某些情况下甚至可能达到12-24小时的RPO;而热备用虽然能提供更快的RTO(仅几分钟),但成本较高。因此,选择合适的方法取决于客户特定的恢复需求。 在运营管理方面,运行监控、错误纠正流程以及停机演练有助于团队成员迅速发现和解决问题。此外,通过使用亚马逊云科技的FIS(故障注入模拟器)或混沌工程实验对系统进行故障注入测试,可以提升系统应对故障的能力。在实际发生中断后,根据经验教训不断优化架构和运营策略。 亚马逊云科技为客户提供直接支持弹性能力的相关服务。亚马逊云科技的弹性中心允许客户定义RPO/RTO目标,并评估其工作负载是否达到了这些目标,进而提供改进建议。DRS(数据中心资源调度器)负责将虚拟机和物理服务器从灾难中恢复至亚马逊云科技。 整合弹性可以为合作伙伴的产品带来诸多好处,如提高客户满意度、实现差异化、创造更多收入机会以及扩大服务范围等。客户期望合作伙伴能够为其工作负载提供弹性的设计和管理。强调弹性专业知识能够满足关键性RFP(请求报价)的要求。合作伙伴应积极参与展会活动,探讨如何利用亚马逊云科技的弹性能力和规划来获取竞争优势。 总的来说,演讲者强调了弹性如何成为客户的关键需求和合作伙伴的重要机遇。通过遵循基本、设计和运营方面的最佳实践,并充分利用亚马逊云科技的弹性服务,合作伙伴可以帮助客户优化其弹性之旅。合作伙伴可以通过将其一流的弹性能力融入其服务中来提升声誉、开拓新的收入渠道并建立更紧密的客户关系。 **下面是一些演讲现场的精彩瞬间:** 斯蒂芬·罗威安(Steph Rowan)和迭戈·德尔·莫勒(Diego del Mole)来自亚马逊云科技合作伙伴组织,他们探讨了如何协助合作伙伴为客户提供具备弹性的服务。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey/images/rebranded/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey_0.png) 借助DevOps理念,可以通过重复部署到新环境、安全地迁移用户以及尽量减少更改引发的事故来实现高效的服务交付。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey/images/rebranded/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey_1.png) Pilot light通过在不影响服务器运行的情况下复制数据,提供了高成本效益的灾难恢复方案,从而实现快速的RPO(恢复点目标)和自动化的恢复过程。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey/images/rebranded/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey_2.png) 运营就绪性审查原则有助于界定系统操作、参与团队、设定监控和警报、确定值班轮换、识别关键组件以及制定SLO(服务水平目标)。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey/images/rebranded/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey_3.png) 领导者们鼓励观众们参观亚马逊云科技的展台,并与弹性团队建立联系。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey/images/rebranded/PEX208-Building_a_practice_to_optimize_your_customer_s_resilience_journey_4.png) ## 总结 1. 进行适当的恢复力评估需要分析业务影响、停机成本、风险场景以及用户体验的监控。这有助于确定诸如RPO和RTO等目标。合作伙伴可以使用亚马逊云科技的恢复力中心来根据这些目标评估其应用程序。 2. 为设计具有恢复力的应用程序,合作伙伴应建议采用微服务、去耦合架构、重试、限流和断路器等技术。同时,利用基于区域的服务,如S3和DynamoDB,也有助于提高可用性。多数客户可以通过单一区域、多个可用区的设置来实现恢复力。 3. 在灾难恢复方面,可选择备份/恢复、试点照明和热备用等方案,它们提供了不同的RPO/RTO权衡。运营就绪审查、纠正错误和故障演练可增强运营恢复力。亚马逊云科技的恢复力生命周期框架为此提供了指导。 总之,通过将恢复力融入服务中,合作伙伴可以提高客户满意度、区分自身并抓住收入机会。亚马逊云科技提供了诸如恢复力中心和DRS等评估工具和灾难恢复服务,以协助合作伙伴打造具有恢复力的客户解决方案。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭