容器可观测性的最佳实践

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/COP319-Best_practices_for_container_observability-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 在容器化应用和环境的快节奏世界中,实现全面的可观测性对于确保最佳性能、可靠性和用户体验至关重要。参加本次讲座,深入探讨容器可观测性的最佳实践。了解如何使用亚马逊云科技可观测性有效地监控、分析和排除您的 [Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail) 和 [Amazon ECS](https://aws.amazon.com/cn/ecs/?trk=cndc-detail) 环境故障。了解可以帮助您消除对代理的手动管理并优化资源分配的最佳实践,同时让您深入了解容器化工作负载。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 视频以亚马逊云科技的产品经理Avi Kana为主角,幽默地解释了众多企业在容器上运行服务时常遇到的问题。这些问题通常发生在深夜,导致页面警报触发,但团队缺乏适当的可观察数据和洞察来快速解决问题。Avi幽默地说道:“解决在凌晨3点30分叫醒你的事件的最佳时间是3点31秒后。”然而,许多亚马逊云科技的客户表示,为容器建立有效的可观察性一直是一个艰难的过程。他们的“船是侧倾的,容器正在掉落。”本演讲的目的是探讨如何帮助团队更好地应对问题并建立适当的容器可观察性最佳实践。 提供一些背景信息,Avi解释说,亚马逊云科技在2019年推出了Container Insights,这是他们首次尝试使用CloudWatch进行容器可观察性。根据客户的需求,这个初始产品提供了预构建的仪表板、警报和内置的监控指标。2020年,亚马逊云科技推出了[Amazon Managed Service for Prometheus](https://aws.amazon.com/cn/prometheus/?trk=cndc-detail),这是一个基于开源Prometheus项目的服务。到了2023年,亚马逊云科技已经显著增强了这两个产品。Container Insights现在有70个额外的指标,可以更深入地了解容器的情况。而本周,Prometheus服务添加了从EKS集群的无代理登机,不再需要运行任何代理。 Avi指出,亚马逊云科技有两个广泛的观测类别——原生CloudWatch服务,以及托管的开源选项。CloudWatch提供了一体化的套件,包括信号如指标、日志和轨迹都在一个地方。开源选项如Managed Grafana、Managed Prometheus和OpenSearch提供了开放标准,并具有亚马逊云科技的可靠性和安全性。在数据收集方面,CloudWatch Agent无缝地将指标集成到CloudWatch套件中,而亚马逊云科技Distro for OpenTelemetry为发射遥测提供了开放式标准。 Avi注意到,客户强调了托管的开源观测选项的几个关键好处。这些包括生产级的安全性、与其他亚马逊云科技服务的无缝集成,以及亚马逊云科技向开源社区回馈改进。 亚马逊云科技的CloudWatch服务经过整合后,为容器和Lambda等资源提供了简单易用且现成的可观察性解决方案。通过应用洞察力,将基础设施直至应用层级的信号连接起来,实现全栈可视化。面对一些常见的容器可观察性挑战,如复杂的安装和配置导致观察能力难以启用,从数千个可能的指标中选择应收集哪些数据,以及在分布式系统出现问题时了解问题影响等,亚马逊云科技致力于消除这些障碍,使可观察性变得更加无缝。例如,ECS体验就被用作一个示例,只需点击一下即可启用,无需部署或安装任何内容。容器洞察力的产品经理奥马尔·里亚兹在现场演示了EKS的可观察性使用情况的简化过程。在创建EKS集群的控制台中,只需勾选一个复选框,就可以使用完全管理的收集器收集Prometheus指标,无需分配、扩展或维护代理。类似的,可以通过单击一次来安装CloudWatch代理和Fluent Bit的CloudWatch遥测收集添加项。这将把启用日志、指标和踪迹的多个步骤简化为一次点击。奥马尔解释了幕后制作这种简化登船的可能性的原理。对于CloudWatch,添加项捆绑了直接从每个节点提取数据的CloudWatch代理和Fluent Bit的守护进程集。对于Prometheus,收集器直接内置到管理服务中,无需运行和管理自己的收集器。托管的Prometheus收集器提供了一个[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)、安全且高度可用的抓取服务,与Prometheus兼容。只需支付所收集的50亿个活跃时间系列指标的费用,而无需调整实例大小。对于那些仍然需要代理的人来说,亚马逊云科技现在支持OpenTelemetry的日志记录,因此一个代理可以在不同环境中收集日志、指标和踪迹。CloudWatch代理是基于OpenTelemetry构建的,并原生支持X-Ray追踪。 Aviv Blatt讨论了Container Insights如何提供智能默认设置,以在集群、节点和服务级别收集指标。它只在每个级别展示最重要的指标,来自数千个可能的信号。亚马逊云科技的可观察性加速器使用与社区最佳实践一致的Grafana和Prometheus提供默认仪表板和警报。 Omri Gross回到舞台上谈论有偏见的可观察性的价值。他指出,许多客户在确定容器中的问题或了解根本原因方面存在挑战。Container Insights与亚马逊云科技的最佳实践警报集成,以基于数百万真实世界的CloudWatch用户推荐指标和阈值。 Omri演示了CloudWatch中的新的Container Insights登录页面,显示了集群健康状况、资源消耗和容器指标。这有助于预先识别风险,而无需依赖现有的警报。它提供了关于10个集群的见解——其中3个已经有警报,2个正常运行,而利用率数据确定了其他5个高风险集群。 如果出现警报,Container Insights会链接到详细信息仪表板。这允许深入到容器级别的指标,然后使用X-Ray关联到服务和应用。Omri展示了如何在网站流量在上午10点激增导致延迟飙升至21秒时识别根本原因。 对于开源用户,Managed Grafana现在支持超过340个插件来可视化和关联指标、日志和轨迹。它还具有预安装的核心插件,以便更容易进行部署。 Omri指出,一个关键痛点是平衡可见性与成本。客户最终会过滤掉指标,冒着错过关键见解的风险。目标是提供全面的远程测量经济高效。 新的Container Insights每指标观测定价最多便宜97%。这鼓励收集所有相关指标。增强的Container Insights还具有更多的默认仪表板、APM集成和最佳实践警报。即使指标增加了4-9倍,成本也会降低。 总之,亚马逊云科技为容器可观察性提供了集成的和开源选项。现在,简化了注册过程,只需一键启用。Container Insights和可观察性加速器提供了智能默认设置和最佳实践。而且,价格变化大大降低了高保真度指标的成本。 欧梅总结道,容器可观察性现在易于加入,开箱即用即可提供指标,将基础设施与应用程序相互关联,主动识别风险,并且高度成本优化。团队现在可以以更高的可见性和信心驾驶他们的容器。 **下面是一些演讲现场的精彩瞬间:** 领导者强调在容器环境中运营服务时,快速解决事件的重要性,以便将中断降至最低。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_0.png) 为了实现这一目标,亚马逊云科技致力于通过提供正确的工具来简化对容器的可观察性,从而能够快速监控并应对问题。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_1.png) 在现场演示中,领导者展示了如何使用亚马逊云科技的EKS集群创建过程,尽管这并不是典型的工作流程,但它有助于观众保持关注。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_2.png) 亚马逊云科技已经将Prometheus指标收集器直接集成到托管的Prometheus服务中,客户不再需要自行部署、管理和扩展该服务。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_3.png) 这使得亚马逊的Prometheus托管服务成为一个安全、高可用、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)且按使用付费的指标抓取服务。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_4.png) 此外,亚马逊CloudWatch代理已得到改进,使其易于部署、开发和构建,同时保持了向后兼容性和整合的追踪、指标和日志收集功能。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_5.png) 在演讲过程中,领导者还会适时暂停演讲,引导听众扫描QR码,了解帮助客户安全部署容器的最新亚马逊云科技服务。 ![](https://d1trpeugzwbig5.cloudfront.net/COP319-Best_practices_for_container_observability/images/rebranded/COP319-Best_practices_for_container_observability_6.png) ## 总结 这是来自亚马逊云科技的re:Invent上的演讲,主要探讨了容器可观察性的最佳实践。演讲者强调了如何让容器监控变得更简单并从中获取价值的方法。演讲者演示了如何在[Amazon EKS](https://aws.amazon.com/cn/eks/?trk=cndc-detail)中一键启用用于收集CloudWatch和Prometheus指标的功能,从而消除了过去的障碍。 演讲的关键观点包括: 首先,亚马逊云科技已在EKS中添加了无代理的Prometheus指标收集功能,无需运行代理即可捕获集群指标。演讲者展示了如何轻松地一键启用此功能。 其次,针对CloudWatch,亚马逊云科技已将CloudWatch代理和Fluent Bit作为EKS中的守护进程,可以轻松地将日志、指标和轨迹发送到CloudWatch。 此外,亚马逊云科技还优化了CloudWatch Container Insights收集的指标,根据社区的最佳实践提供了集群、节点和服务级别的现成视图。 总的来说,亚马逊云科技已经大大减少了容器监控的复杂性,并根据社区的最佳实践提供了关于应收集哪些指标的建议。这使得从可观察性中获取价值变得更加容易。 演讲者最后呼吁观众采取行动——利用亚马逊云科技中现有的本机和开源选项,以最小的努力和成本来了解您的容器环境。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭