实时洞察:如何使用CloudWatch Logs的机器学习功能加速数据分析

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 随着业务的增长,日志数据的数量通常也会增加,这给运营和成本带来了挑战。日志中包含了可帮助您监控应用程序、调查问题和优化工作负载的有价值信息。但是,如果处理不当,管理和分析大量日志数据可能会导致高昂的成本和调查速度变慢。在本次会议中,您将了解如何使用新的功能来应对这两方面的挑战。您将学习如何使用亚马逊CloudWatch中的新[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)驱动日志分析功能来检测异常、模式并简化从日志中获取有价值信息的过程。您还将探索如何使用新的CloudWatch日志类以一种成本效益高的方式统一您的日志。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 亚马逊云科技的re:Invent期间,作为产品经理的Nikhil Kapoor和Matt Tichenor,在2023年的会议上分享了一些关于亚马逊CloudWatch的新功能。这些新功能旨在解决客户在处理大量日志数据时所面临的常见问题和挑战。 Nikhil首先介绍了CloudWatch的背景信息。他指出,CloudWatch是亚马逊云科技的观测服务,提供包括日志、指标、轨迹和各种监控工具的核心功能。Nikhil还分享了关于CloudWatch当前规模的一些关键统计数据,包括每月处理11万亿个指标,每月处理7亿GB的日志数据,以及每秒处理11,000 GB的平均数据量。 Nikhil解释道,CloudWatch团队一直在努力扩大这些观测能力,重点是使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)等技术来减轻客户的运营负担。这使得工程师、开发人员和操作员能够减少在处理观测开销方面花费的时间,从而更多地将精力投入到构建能带来直接商业价值的创新上。 接下来,Nikhil概述了客户在处理云规模应用程序和基础设施产生的海量日志数据时所面临的一些常见问题和挑战,包括数据量过大和识别变化的问题。为了解决这些问题,CloudWatch推出了一些新功能,如智能日志分组和分析等。 主动预防检测策略:尽管指标和警报能够检测出一些已知问题,但客户还需要积极主动地识别可能的新型新兴问题的日志异常。然而,持续监控和分析大量的日志数据以实时检测异常是无法通过人工方式完成的。 总结这些挑战后,Nikhil介绍了三种全新的CloudWatch功能,旨在直接解决这些问题: 1. 模式分析:这一功能能够在日志数据中自动检测模式,将相似的日志消息归类并纳入少量的定义模式。这样大大减少了大量的原始日志事件,使其简化为一组常见模式。例如,Nikhil展示了一个案例,模式分析如何将应用程序接收到的超过4000个日志事件智能地压缩为仅15种不同的模式。每种模式都汇总了一组类似的报文,展示了静态共性以及可变组件。工程师可以轻松点击特定的模式来查看元数据,如变量的最频繁值。例如,一个示例展示了最常见的HTTP状态码和客户ID。这使得大量日志数据更易于视觉扫描、分析和快速识别问题。 2. 比较分析:在模式检测的基础上,比较分析允许用户比较从两个不同时间段提取的模式。例如,这可以用以比较应用程序在出现问题时的模式与在正常运行时的时间段内的模式。这两组模式的差异很容易识别出新的问题。在一个例子中,比较分析显示了一个错误信息新模式出现在问题时间期间,而在基准健康时段内完全没有出现。这表明了应用程序问题的可能根本原因。 3. 异常检测:该功能利用先进的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)算法持续监控日志模式,以实时自动检测异常,即与预期行为相比的不寻常变化。例如,它能迅速发现新的错误消息或某些消息量的突然增长。用户在指定日志组上启用异常检测,而CloudWatch则在内部使用ML模型学习正常模式并建立基准。一旦检测到任何异常,它们将显示在专门的审核页面上,用户可为异常创建警报并进行进一步调查。 在展示这些新的分析功能后,Nikhil转而讨论了处理大量日志数据的挑战:存储和管理PB级日志数据及其生命周期,支持不同团队的访问控制和查询工作流程,以及针对不同类型数据的不同访问模式。有些数据需要实时处理,而其他一些则是偶尔进行分析。 为了将所有日志整合到一个可扩展的解决方案中,CloudWatch引入了一种名为“不常访问日志”的新型日志类别。这种新型日志类别的关键功能包括:为云监视服务提供足够的规模、可靠性、安全性,比标准日志低50%的成本,以及使用相同的日志洞察查询界面进行即席分析。这有助于合并来自多个来源的不那么重要的日志。 对于何时应该用关键应用监控日志或不常访问日志,Nikihil解释说,关键应用监控日志应继续使用现有类别,而偶然的取证分析日志可以使用新的不常访问类别。这种新类别旨在优化CloudWatch服务,以满足取证分析使用的访问模式和成本分布。 利用不常访问日志,Fluent Commerce增强了应用程序可见性、提高运营效率并管理成本。 Design Crowd用其经济有效地扩展和创建新的工作负载,而无需限制正在注入的日志。 Nikhil特别强调了最新的功能——Logs Insights和Metrics Insights的自然语言查询。这意味着用户可以用日常语言编写查询,而不需要了解特定的语法。CloudWatch会解析这些自然语言查询并生成相应的底层查询以提取见解。例如,用户只需输入“按地区显示错误计数”,CloudWatch就会生成一个高性能的查询以按地区聚合错误。这种自然语言查询使得不熟悉查询语言的用户也能轻松获取见解。 总的来说,Nikhil表示,所有这些新功能的核心都是利用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)或生成式AI来帮助客户从CloudWatch获取更多价值: - 新的日志分析功能,如模式检测和异常检测,都利用了ML算法来自动从大量日志数据中发现有价值的见解。 - 对不常访问的日志类别进行了优化,针对间歇性访问模式进行了取证分析,使用了ML技术。 - 自然语言查询利用了Gen AI来解析普通语言的请求,并将其高效地转换为查询。 通过这些新功能,CloudWatch能够更有效地处理和管理大量的日志和指标数据。它们为客户提供了对关键应用程序和系统行为更深入的了解,而无需过多的人工干预。这使得客户可以将更多精力投入到创造直接商业价值的创新中,而不是管理可观测性的开销。 **下面是一些演讲现场的精彩瞬间:** 领导者提出了一种简洁而有效的解决方案来应对复杂的挑战。 ![](https://d1trpeugzwbig5.cloudfront.net/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics/images/rebranded/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics_0.png) 作为亚马逊云监控([Amazon CloudWatch](https://aws.amazon.com/cn/cloudwatch/?trk=cndc-detail))的一部分,它提供了一系列诸如日志、指标和追踪等功能,以增强对系统的观察能力,从而助力客户更迅速地开展创新。 ![](https://d1trpeugzwbig5.cloudfront.net/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics/images/rebranded/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics_1.png) 通过全新的日志洞察模式页面,用户能够以可视化的方式识别新兴的错误信息,从而轻松找出问题可能的根源。 ![](https://d1trpeugzwbig5.cloudfront.net/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics/images/rebranded/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics_2.png) 领导者展示了一个在云监控日志中如何设置异常检测的简单方法。 ![](https://d1trpeugzwbig5.cloudfront.net/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics/images/rebranded/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics_3.png) 此外,CloudWatch Logs Insights这一新功能,例如自动化的日志分析聚类、对比以及异常检测,都代表着一种令人振奋的进步。 ![](https://d1trpeugzwbig5.cloudfront.net/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics/images/rebranded/COP350-Accelerate_insights_using_Amazon_CloudWatch_Logs_ML_powered_analytics_4.png) ## 总结 在亚马逊云科技举办的re:Invent上,[Amazon CloudWatch](https://aws.amazon.com/cn/cloudwatch/?trk=cndc-detail)推出了一系列强大的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)新功能,旨在帮助客户更快速地从中获取日志数据的洞察。首先,CloudWatch Log Insights现已具备自动检测日志数据中的模式并将相似日志事件聚类成有意义组的能力。这将大量原始日志压缩为少量具有代表性的模式,从而大幅简化了分析过程。用户可查阅每个模式,了解最常见的值并迅速发现问题。其次,CloudWatch Log Insights现可在不同时间段内对比模式,如将当前模式与健康基准线进行比较,轻松找出可能揭示问题根源的新错误或变化。这自动完成了在日志中判断发生何事的基本故障排除工作。最后,CloudWatch Logs异常检测使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)实时监控日志并检测异常,如新错误或不寻常的波动。使团队能主动识别并解决问题,无需手动触发警报。这些功能共同利用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)简化了对日志的分析,加快故障排除速度,提高对应用程序运行状况的可见性。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭