构建有效的可观测性战略

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/COP325-Building_an_effective_observability_strategy-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 制定战略是提高可观测性成熟度、确保客户满意的关键。在本讲座中,您将了解可观测性为何重要、您应该观测什么和如何观测,以及哪些可观测性指标能够更好地支持您的业务成果。使用 [Amazon CloudWatch](https://aws.amazon.com/cn/cloudwatch/?trk=cndc-detail) 和 Amazon X-Ray 等服务深入探讨不同的技术和实践。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 演讲者首先强调了有效观察策略在日常生活应用监控和调试中的重要性。他们来自亚马逊云科技的观察团队,致力于帮助客户在观察过程中提供帮助。在这次演讲中,他们逐步介绍了构建观察策略的八个步骤。 首先,演讲者需要解释从哪里开始观察之旅。一旦确定了起点,就可以明确建立观察策略的原因。演讲者将解释应监控的内容、如何进行监控,并提供相关演示。 第一步是确定观众在观察实践方面的当前状况。亚马逊云科技的客户经常在监控应用程序方面寻求帮助,但他们不知道从哪里开始。他们希望在组织内部建立观察实践和文化。为了解决这一需求,亚马逊云科技开发了观察成熟度模型。 随着亚马逊云科技的使用增长,观察能力需要相应提高。但在现实中,这往往并不发生。观察成熟度模型提供了一个基本框架来评估当前成熟度并找出需要改进的领域。 该模型的第一个阶段是基础监控。这是大多数组织的基本状态,各团队独立收集遥测数据,尚未制定共同实践。目标是设定现实改进目标,以便在没有观察策略的情况下进行调试。 第二阶段是中级监控,包括收集和分析具有明确定义过程的遥测信号。但是,实践和政策尚未在全组织范围内实施。仍需要大量时间调试问题。重点是定义可满足客户承诺的可接受的KPI。 第三阶段是最成熟的可观察性阶段,这标志着组织内由中央团队(如SRE或DevOps)拥有全面的战略。他们定义可观察性标准和策略。这有助于满足客户的关键服务水平目标并实现“观察重要事物”的关键目标。 第四阶段是积极主动的可观察性阶段,专注于利用积累的遥测数据和使用ML工具通过趋势分析持续改进过程。这个阶段优化了操作和资源分配。然而,旅程并未结束。持续的改进和迭代是实现更好客户体验的关键。 海伦和安娜接着介绍了构建有效可观测性策略的其余步骤。安娜首先解释了为什么这个策略如此重要。她讲述了一个典型的令人沮丧的日子,SRE被警报淹没,花费数小时进行调试。一个稳固的策略的目标是尽可能缩短从故障到解决的周期。这减少了压力并改善了客户体验。 可观察性对于理解问题的影响以做出正确的缓解决策也至关重要。当拥有丰富的实时和历史数据时,可以就优先事项和操作做出有根据的决策。最终目标是让客户和同事感到满意。在亚马逊云科技,客户至上的领导原则是一个关键原则。构建可观察性策略需要从客户需求开始并反向工作。 为了更具体地说明问题,安娜设置了一个假设的客户场景。她和海伦运营一个宠物领养网站。客户浏览可用宠物并完成领养过程。海伦扮演一个搜索和领养狗的样本客户。 从客户的角度来看,诸如CPU使用率之类的可观察性指标是不相关的。真正重要的是诸如位置、宠物选择、价格合理、页面加载速度快以及找到合适的宠物等因素。在商业方面,优先考虑的是活动成功、网站流量、领养数量和收入来照顾动物。 海伦展示了一个示例CloudWatch仪表板,突出了关注客户和商业需求的指标,例如领养、捐款、页面加载速度、可用性、流量来源等。这是“外部观察”的例子,从外部结果开始,而不是“内部观察”的基础设施聚焦的监控。 在明确了背景之后,海伦开始了构建可观察性策略的第一步——关注重要事项。关键在于根据客户和业务需求设定优先级。技术团队需要与产品经理、业务相关人员和内部客户进行协商。这是针对整个组织还是特定项目的策略制定问题。 第二步是通过定义关键绩效指标、服务水平和成功标准来衡量目标。第三步是识别用于实现这些目标的数据来源。已有的指标、日志和追踪可能已经提供了所需的数据,但需要将其转换为正确的格式。可能需要从真实用户监控和合成脚本中捕获额外的数据。提前规划标准数据格式和库是有益的。 海伦展示了从日志数据中提取业务指标的两个选项:1)针对无法控制的日志的指标筛选器;2)针对所拥有日志的嵌入式指标格式。这些使得将日志数据转换为可用于更好分析的指标。 第四步是确定如何消费数据——从专注于业务优先级的警报策略开始。并非所有事情都需要紧急警报。应为每个警报定义明确的操作,以防止警报疲劳。安娜强调了高级客户聚焦仪表板相对于低级基础设施仪表板的重要性。像跨账户访问和自定义数据这样的要求将影响工具的选择。 现在,在了解了要求、KPI、数据来源、警报需求和仪表板需求之后,步骤六涉及到为你的策略选择正确的可观察性工具。安娜建议研究未来的需求,只挑选必要的功能,并尽可能整合工具。对应用程序进行仪器化的标准化使用OpenTelemetry可以提供更改后端的灵活性。某些团队可能需要进行例外处理。 步骤七强调将团队聚集在一起以记录并将策略集成到现有流程中。对于实施,安娜建议采用渐进式的“煮沸水壶,而非海洋”的方法。步骤八关注持续迭代——更新基准线,在发生故障后进行审核,并根据客户需求进行重复。 总的来说,演讲者们在讨论如何制定一个以客户和业务需求为核心的可观察性策略。这个八步法为策略制定、评估、数据收集、分析、工具选择以及持续的优化提供了全面的指导。成功的实施需要成熟度与企业文化的发展。通过精心设计的策略,企业能够将监控转化为有价值的可观察性,从而提供更好的客户体验。 **下面是一些演讲现场的精彩瞬间:** 有效的监控和观察应用程序与基础设施性能指南 为了理解良好的性能表现,我们需要设定成功的标准,以便能够衡量系统的健康状况。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_0.png) 领导者们探讨了如何确定并准备合适的数据来源以监测关键性能指标。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_1.png) 在亚马逊云科技中,制定警报和报警策略始于评估其重要性并采取明确的行动响应。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_2.png) 设计利益相关者的仪表板,以提供业务利益相关者所需的数据。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_3.png) 通过实时地图展示,可以观察到因S3访问被拒绝导致的Fargate容器的异常故障。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_4.png) 领导者们鼓励观众们通过问卷调查提供反馈,以帮助亚马逊云科技优化未来的活动。 ![](https://d1trpeugzwbig5.cloudfront.net/COP325-Building_an_effective_observability_strategy/images/rebranded/COP325-Building_an_effective_observability_strategy_5.png) ## 总结 亚马逊云科技团队提出了一套八步骤的有效可观测性策略开发方法。首先,利用他们的模型评估您目前的可观测性成熟度并设定目标。接着,明确对您客户和业务最具影响力的方面,例如可用性、性能和安全。随后,界定与此类需求相关的关键指标。进一步识别用于衡量这些指标所需的数据来源。设计关注业务成效和行动洞察的智能警报。搭建展示客户体验、服务、基础设施和依赖关系的可视界面。在明确需求之后,挑选优化工具以实现数据标准化和整合。最后,记录策略,分步骤实施,并根据事件和客户需求持续改进。通过始终将客户的需求放在首位并关注重要事项,您能够建立起一套可观测性实践,支持数据驱动的决策。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭