使用亚马逊云科技开源可观测性进行运行

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/COP332-Operating_with_AWS_open_source_observability-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 对于采用 OpenTelemetry CNCF 项目的组织而言,开放标准正成为实施可观察性的流行机制。在本讲座中,您将了解如何利用以 Amazon Distro for OpenTelemetry 为基础的完全托管开源平台构建可观测性解决方案。了解如何将 [Amazon Managed Grafana](https://aws.amazon.com/cn/grafana/?trk=cndc-detail)、[Amazon Managed Service for Prometheus](https://aws.amazon.com/cn/prometheus/?trk=cndc-detail) 和 [Amazon OpenSearch Service](https://aws.amazon.com/cn/opensearch-service/?trk=cndc-detail) 用于存储和分析可观测性的三个核心维度:度量、日志和跟踪。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1900字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 演讲由亚马逊云科技的主要解决方案架构师Iyengar Jathan向观众致欢迎词并对主题为“使用亚马逊云科技的开源观测能力”展开介绍。他表示,客户对利用开源软件进行观测的需求持续增长,原因在于开源工具所具有的固有灵活性和可定制性。这种能力使得客户能够无缝集成多种适合其特定需求的开源解决方案。此外,保持中立使客户能够保持在创新的前沿,因为这些创新不断来自开源社区。 然而,Jathan注意到,在与客户的交流中也存在一些担忧。例如,在规模上操作和维护支持开源观测工具的基础设施可能极具挑战性。确保高可用性、弹性和成本效率的同时是一项艰巨任务。正是为了解决这些问题,亚马逊云科技推出了管理的开源观测服务,以帮助客户减轻这些基础设施负担。 Jathan介绍,演讲将从一个关于为客户观测需求选择开源软件的决策过程的实例开始。随后,VTEX的代表将分享他们如何使用亚马逊云科技管理的开源服务应对观测挑战的经历。最后,将分享亚马逊云科技在大规模运营这些开源服务方面的经验以及新功能细节。 然而,Jathan认为有必要首先建立一个关于基本观测概念和术语的共同基础,因为它们是对话的核心。他指出,可观测性的概念源于控制理论。简单来说,如果一个系统的内部状态可以通过观察它产生的外部信号或症状来推断,那么这个系统就被认为是可观测的。在软件工程背景下,这意味着通过分析可观察的信号和轨迹来确定应用程序中存在的问题的根本原因。 监控是当前主要的工作重点,而可观察性则专注于构建能够解释和关联所捕获信号的系统,以便实现快速的故障排查。关键信号通常包括指标、日志和追踪信息。指标能最快地反映一个系统内部的状况。通过可视化指标,我们可以轻松地发现洞察、设置警报、检测异常等。当需要进行深入的调查和分析以精确确定问题背景时,日志会更有用。随着微服务架构越来越普及,追踪有助于跟踪应用程序层上的服务到服务交互。通过追踪,我们可以获取关于服务延迟、错误和故障的信息。查看实时服务图可以帮助我们发现导致特定问题的根源。 在亚马逊云科技,我们的理念是为客户提供选择,让他们根据自己的需求选择和搭配可观察性服务来构建最佳的架构。我们提供像CloudWatch和X-Ray这样的原生服务,以及像Managed Grafana、Managed Prometheus和OpenSearch Service这样的托管开源替代品。可以通过CloudWatch Agent、FluentD或OpenTelemetry Collector等代理将数据从任何环境输入到这些亚马逊云科技可观察性服务中。这样,工作流的一致性就不受环境限制,无论是亚马逊云科技、内部还是笔记本电脑。 Jathan接着介绍了亚马逊云科技为OpenTelemetry提供的支持。由于支持的源和目标非常广泛,OpenTelemetry对客户具有很大的吸引力。任何数据源都可以在内存中处理并发送到任何所需的目标。这允许通过添加上下文、删除不必要的信息、聚合等方式丰富信号,从而捕捉后续故障排除的真正有意义的遥测数据。OpenTelemetry收集器可以在单个可扩展的二进制文件中实现所有这些功能。 亚马逊云科技推出的Distro是一款针对上游OpenTelemetry项目的再分发产品。所有代码贡献都将回馈至Cloud Native Computing Foundation。亚马逊云科技会根据直接客户反馈,挑选出一些关键组件,如接收器、导出器、处理器和扩展等,经过严格的审查流程,确保其正常运行后再提供给客户。通过使用亚马逊云科技的Distro,企业可以获得专业级的软件保障以及亚马逊云科技的支持服务。支持的语言包括Java、JavaScript、Python和.NET。 Jathan简单介绍了一下亚马逊提供的管理Prometheus服务。Prometheus是一款广受欢迎的开源指标监控解决方案,以其强大的PromQL查询语言和轻松处理高基数指标的能力而受到好评。然而,在大规模运行Prometheus的同时保证高可用性、弹性和长期存储可能会带来巨大的操作挑战。这个托管服务完全抽象了基础设施管理,提供了全服务器式的解决方案。客户只需支付所使用的费用,而无需担心容量规划或维护问题。该服务可以将任何来源的指标整合到使用PromQL查询的集中工作区。最近宣布的功能允许支持最多5亿个活跃时间序列和每个Prometheus工作空间的30,000个规则。 亚马逊OpenSearch服务管理OpenSearch分析引擎,在后台无缝地处理配置、故障处理和替换。亚马逊托管的Grafana提供了一个全面的托管服务,预装了企业插件,并抽象了后台基础设施。现在它可以支持多达10,000个预配用户、500个并发用户以及超过2000个仪表板和数据源。 在了解了基本情况后,Jathan分享了几个实际客户案例,例如富达投资。富达公司提供金融服务,如经纪业务、退休储蓄和资产管理。该公司正将其6000个云应用程序从对SAS可观察性的依赖转移到开源解决方案。在他们的应用程序组合中,大约有60%在亚马逊云上运行,分布在1400个账户中。 Fidelity公司致力于通过利用托管的开放源代码的可观察性来降低运营成本,保持供应商中立性并与现有的内部软件无缝集成。其可观察性架构内置了针对零层和一级关键任务的区域故障切换功能。OpenTelemetry收集器在各地区之间传输数据。 预生产测试已经展示了一些好处,如易于扩展、GitHub自动化管道和不同团队的标准化模式等。总的来说,Fidelity仍在积极推进其新可观察性栈的部署进程。 接下来要介绍的是菲利普斯66公司,这是一家全球能源公司,运行一些云工作负载,并使用传统内部监控工具。他们寻求实施开源可观察性,同时避免基础设施负担和长期供应商锁定。 他们的解决方案包括在内地和云端运行的OpenTelemetry收集器,以及用于指标的Node Exporter和跨越所有环境的集中式Grafana仪表板。这实现了他们的统一可观察性平台目标,将平均故障恢复时间减少30%。 然后是选择酒店(Choice Hotels),他们已经具备了现代的工作负载和现有的追踪功能。他们的目标是通过Prometheus从轨迹中提取指标,而不会产生自管理解决方案的开销。 他们设置了Managed Prometheus和OpenSearch Service,使用OpenTelemetry网关从轨迹中导出指标。这使他们能够在收集20亿活跃时间序列指标的同时,将基础设施成本降低40%,并将平均故障恢复时间缩短75%。 第四个也是最后一个案例是北西互惠保险公司(Northwestern Mutual),他们将应用程序迁移到EKS上的容器,并希望停止托管自己的Prometheus环境。 他们利用EKS上的OpenTelemetry操作员附加组件自动收集并将指标发送到Managed Prometheus。这使他们的基础设施成本减半,释放了工程时间,提高了指标可用性,并将警报页面减少了35%。 总之,Jathan强调了开放源代码可观察性如何帮助客户实现效率、规模、灵活性和供应商中立。 随后,他邀请VTEX的Gustavo Franco分享他们采用亚马逊云科技托管开放源代码可观察性的历程。VTEX为全球客户提供统一的订单流程电子商务平台。 Gustavo解释道,VTEX的工程、产品与设计团队与技术支持团队共同负责开发和生产。他强调了康韦定律在系统设计中的应用,即团队的组织结构决定了其系统设计。 在技术方面,VTEX主要依赖于Elastic Beanstalk和EKS,并以C#和Node.js/Go为主要编程语言。此外,他们还利用了各种亚马逊云科技服务,如ELB(应用负载均衡器)、自己的路由器、RDS(关系数据库服务)、S3(简单存储服务)和Redshift(数据仓库服务)。 VTEX每天处理约4TB的日志、1.5亿个活跃时间序列和20亿个跨度。过去,他们的可观察性工具需要将应用程序的遥测数据直接从应用程序导出到主要供应商和几个二级供应商。这带来了诸多挑战,包括过高的可观测性成本、政策治理不足,以及在后台混乱的情况下仍能令开发者满意的团队。 为了应对这些问题,VTEX专注于分离关注点,即生成、处理和使用遥测数据。他们还采用了一种以开源为主导的方法,同时期望整合供应商。新的架构使用OpenTelemetry收集器,由技术支持团队管理,将数据处理并路由到亚马逊云科技服务,如OpenSearch和Managed Prometheus。这实现了集中治理并减少了供应商的蔓延。 尽管初期存在一些关于缩放和数据在不同收集器之间同步的痛点,但通过添加缓冲和冗余已充分解决了这些问题。总之,VTEX实现了其预算控制、治理和精简供应商的目标。 在未来,VTEX计划进一步改进,如通过Managed Grafana提高开发者的体验,针对VTEX实际情况的培训,向OpenTelemetry贡献他们对自定义修改,以及减少应用程序产生的嘈杂遥测数据。 古斯塔沃最后表示,他们在亚马逊云科技和开源方面的可观察性之旅仍在继续,他期待着未来的有价值功能。 接下来发言的是负责亚马逊云科技托管开源可观察性服务的产品和工程团队的领导者Mark Cheyne。他表示,亚马逊云科技的构建者同时也是操作员——他们建造、运行、扩展、升级并修复他们创建的服务的问题。 亚马逊云科技的开发者秉承DevOps理念,这使得他们能够更好地运营和维护他们所构建的系统。这种理念使得他们能够作为第一时间的解决者应对客户的问题和疑虑,这是与客户互动的关键环节。因此,保持快速响应的重要性不言而喻。Mark的团队致力于尽量减少需要升级的支持案例,目标将其控制在10%以内。 对于[Amazon Managed Service for Prometheus](https://aws.amazon.com/cn/prometheus/?trk=cndc-detail),他们采用了基于单元格的架构,[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)控制面在Lambda和API Gateway上运行,而数据面则在EKS托管的容器上运行。 他们使用多种工具监控服务——用于Lambda的CloudWatch和X-Ray,用于ECS的CloudWatch Logs和本地日志记录,用于EKS日志的Fluent Bit,用于指标的CloudWatch Agent以及用于服务指标的Prometheus。可视化是通过Managed Grafana实现的。 一些关键经验教训包括优化生产中的日志体积以提高效率,以高可用性方式部署监控以保持可见性,使用CloudWatch密切跟踪服务限制,并利用数据源的命名约定。 近期发布的新功能包括诸如合规认证的安全增强功能,扩展以支持5亿活跃时间系列和每个Prometheus工作空间的3万规则,统一的Prometheus-Grafana体验,所有集群的EKS成本监控,OpenSearch追踪分析,以及使用服务发现的无代理Prometheus收集器。 展望未来,他们正通过使用亚马逊云科技的Distro for OpenTelemetry来减少收集器的数量,以便同时跟踪日志和轨迹。这将减小管理多个代理的操作开销。 总的来说,Mark在演示中强调了真实客户如何使用亚马逊云科技管理开源观测服务的好处。亚马逊云科技提供的卓越运营和新功能解决了客户的痛点,从而带来了这些好处。他邀请与会者查阅一系列提供的资源,了解更多关于亚马逊云科技上的开源观测,并开始使用它。 **下面是一些演讲现场的精彩瞬间:** 领导者关注到客户对采用开源软件的兴趣日益增长,因为他们认为这些软件具有灵活性、集成性和创新性。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_0.png) 为了提升开发者的工作体验,领导者计划提供更多针对视觉威胁分析使用案例的培训。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_1.png) 通过CloudWatch日志中的模式命令,可以自动聚类相似的日志模式,从而实现可视化和降低日志成本。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_2.png) 建议演讲者使用CloudWatch的使用量指标来监控服务限制,以便预测和申请配额增加。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_3.png) 亚马逊云科技已经解决了监控警报管理器的内存泄漏问题,并迅速采取了措施。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_4.png) 领导者推出了一项名为amazon ETS多类成本监控的优化功能,该功能在部署后的10分钟内帮助客户节省了10万美元的成本。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_5.png) 领导者邀请与会者参观亚马逊云科技的工坊和加速器,以获取更多关于亚马逊云科技服务和开源技术的信息。 ![](https://d1trpeugzwbig5.cloudfront.net/COP332-Operating_with_AWS_open_source_observability/images/rebranded/COP332-Operating_with_AWS_open_source_observability_6.png) ## 总结 该视频探讨了随着开源社区的灵活性和创新能力的增强,越来越多的亚马逊云科技Amazon Web Services客户开始采用开源软件以提高可观察性。然而,大规模支持开源可观察性工具的基础设施运营仍具挑战性。 亚马逊云科技Amazon Web Services提供针对诸如Prometheus、Grafana和OpenTelemetry等开源可观察性工具的全面管理服务,以应对这些操作方面的挑战。这些服务提供企业级支持、高可用性和自动扩展,同时允许客户保持中立供应商。 视频中展示了亚马逊云科技Amazon Web Services托管的开源可观察性服务的实际应用案例。优势包括降低运营成本、加速故障排除、改善开发者和用户体验以及显著降低成本。 视频重点介绍了亚马逊云科技Amazon Web Services在可观察性服务方面的新功能,如无代理指标收集、对300多个Grafana插件的支持以及对OpenTelemetry日志收集的支持。总之,亚马逊云科技Amazon Web Services对开源可观察性的管理模式使得各类组织能够专注于核心业务而非可观察性基础设施管理。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭