## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
IT行业对可观察性领域的解释非常多样。当谈到可观察性的实践时,情况会变得更加微妙,因为一个组织的DNA会影响可观察性的应用方式。在这个闪电式演讲中,了解组织如何避免反模式并采用最佳实践,以获得可观察性的好处并实现有效的成本优化。这个演示由亚马逊云科技合作伙伴ManageEngine提供。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共600字,阅读时间大约是3分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
演讲者阿南德(Anand)是Zoho公司下属的ManageEngine领导团队的一员,该团队专注于企业IT管理软件。ManageEngine在多个产品领域拥有超过25年的经验,因此在这一领域具有丰富的专业知识。据阿南德介绍,他将分享ManageEngine在实施可观察性方面的经验以及如何避免反模式。他强调,了解常见的陷阱和差距通常是有益的,因为如果不解决这些问题,它们可能会演变成人员方面的问题。
首先,他澄清了监控和可观察性之间的区别。监控主要是反应性的,主要依赖于由阈值违反触发的警报和事件。而可观察性通过利用历史数据来提供推理和决策的背景,增加了一层动态性。为了说明这种差异,阿南德以人体为例——大脑根据所学经验监测心脏的功能并采取适当的行动。类似地,可观察性解决方案从生态系统中学到东西,以便在面对类似于过去事件的情况时提出建议选项。
在了解了可观察性的背景之后,阿南德深入探讨了几个方面的常见陷阱:易用性、可靠性、成本效率和人力因素。一个常见的误解是更多的数据总是提高可观察性。实际上,质量来自于以合适的间隔采集正确的数据。阿南德分享了一个比喻,就像在徒步旅行中携带适量的水一样。过多的水会拖累你,而太少的水会让你脱水。他以CPU使用率监控的实际例子来说明这一点。每5分钟采样一次利用率会错过短暂的1分钟峰值。但是,如果每10秒采样一次,就会捕捉到所有的峰值并生成过多的数据。关键是确定适当的采样速率。
下一步是通过仪表板可视化指标。阿南德承认在创建仪表板方面存在广泛的技能差距。客户通常认为没有仪表板就意味着没有见解。事实上,仪表板应该解决常见问题,而不是一次性问题。添加仪表板会在故障排除过程中产生技术债务。在使用之前,应测量使用率和价值。一个常见的但错误的假设是,部分一切都很好。为了确保端到端的可观察性,所有层都必须相互关联,以避免在事故发生时的耗时相关性。数据应该在工具之间统一或一起链接。
在运营管理中,错误的警报配置导致工程师逐渐忽视事件。误报不仅会浪费资源,还应该尽量减少。此外,配置还可能增加成本,例如短信警报,因此应加以优化。过度关注每个应用程序的独特性可能导致问题,因为各个应用程序之间的差异会导致过度分散注意力。通过使用微服务,跨团队的互操作性变得至关重要。
其他常见的陷阱还包括在不同班次之间过度分配任务,在没有流程变更的情况下尝试新工具,以及为尚未使用的功能支付过多的费用。Anand强调,工具无法解决问题,关键在于人。在采用新工具时,需要对管理、培训和使用的冲击进行评估。
总的来说,Anand分享了避免观测反模式的一些关键要点:
- 区分监控和观察
- 以合适的间隔对合适的数据进行采样
- 为常见问题创建仪表板,以衡量使用情况
- 端到端连接所有数据,避免局部视角
- 优化配置和访问权限以降低成本
- 在工具中统一数据,以便在出现问题时作出应对
- 在采用新工具时调整流程
- 适当调整工具的大小,以避免为未使用的功能支付过多的费用
ManageEngine在Zoho Corporation的产品线中积累了25年的经验,致力于提供既实惠又专为观测设计的工具。Anand鼓励与会者了解更多关于解决观测挑战的信息,并参观展台406。他最后表示,了解反模式有助于识别那些如果不加以处理通常会成为问题的空缺。
**下面是一些演讲现场的精彩瞬间:**
演讲者将基于其在Zoho公司的工作经验,分享关于可观察性的反面教材。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__0.png)
监控通常依赖于反应性警报,而可观察性则是通过分析历史数据积极主动地提供洞察,从而帮助开发者。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__1.png)
可观察性解决方案能够从整个生态系统中学到知识,以便在遇到与过去类似的情况时提供正确的建议,就像大脑对心脏功能的照顾一样。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__2.png)
领导层强调,传统的方法如仅关注CPU利用率忽略了那些影响客户体验的偶然流量高峰问题。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__3.png)
领导层还强调了在构建仪表板时要避免技术债务的重要性,这可以通过审慎选择能提供可操作洞察的指标来实现。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__4.png)
平台工程团队需要实施有效的问题解决和高可用性策略,以确保可观察性数据始终可用。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__5.png)
在过去的25年里,ManageEngine以合理的价格提供了实用的工具集。
![](https://d1trpeugzwbig5.cloudfront.net/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine_/images/rebranded/DOP404-S-How_not_to_practice_observability__sponsored_by_ManageEngine___ManageEngine__6.png)
## 总结
引言:本次讲座主要探讨了在实施可观察性解决方案过程中如何避免一些反模式和常见陷阱,以便更有效地监控和诊断复杂系统的问题。
关键点1:最佳的间隔采样策略至关重要——过度频繁的或稀疏的采样可能导致错误的推断和低下的资源利用效率。通过选择合适的采样率,我们可以在不过度消耗数据的情况下获取有价值的见解。
关键点2:仪表盘应该可视化解决常见问题所需的数据,而不仅仅是关注罕见问题。如果没有明确的目的就创建仪表盘,可能会导致界面混乱且难以找到相关数据。
关键点3:确保所有组件的端到端可观察性,而不是仅仅依赖于各个部分独立地工作。将监控分割成不同的部分会在出现问题时使故障排除变得更加困难。
结论:要避免诸如不正确的采样率、设计不佳的仪表盘和孤立监控等常见错误和陷阱,以构建高效且实用的可观察性平台,从而提供有关系统运行状况的可操作洞察。关注人员、流程和工具方面的优化,以实现最大的价值。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")