集中运营

云计算

re:Invent

## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/COP320-Centralize_your_operations-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读无论您在迁移到云端或处于云端运行过程中的哪个阶段，亚马逊云科技都提供了一个集中式运营管理解决方案，您可以使用该解决方案在亚马逊云科技、内部部署、混合环境和边缘环境中管理和操作您的应用程序。在本讲座中，了解如何使用 Amazon Systems Manager to automate proactive processes，如补丁和资源更改，并通过数百个运行手册解决问题。通过自动化，您可以更轻松地减少服务中断，简化耗时的流程，并避免重复的任务，以达到运营效率的提升。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华，共1900字，阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。</font> 在关于集中化和扩展操作的有益讲座中，三位演讲者依次进行了自我介绍。首先介绍的是Eric Weber，他过去7年半一直在亚马逊云科技担任高级解决方案架构师，致力于帮助众多客户采用集中化操作实践。接下来是Oren Teich，他是亚马逊云科技运营管理产品的资深经理，负责构建能够消除日常操作中的繁琐的产品，降低如平均解决时间等指标，同时提高操作的愉悦度。最后一位是MuleSoft的Badri Govind Rajan，他详细阐述了公司如何利用亚马逊云科技的Systems Manager框架来维护超过400,000个EC2实例。 Eric随后概述了讲座的主要议题。他强调了一个共同挑战，即从一个亚马逊云科技账户和一个区域的小部分资源开始，迅速扩展到50多个账户和涵盖许多区域的数千个实例。针对管理少数几台服务器有效的方法通常不适用于如此大规模的环境，其中包含了10,000多个资源。随着基础设施的增长，需要将以往有效的方法与未来所需的方法相结合。另一个关键挑战是在尽量减少人工干预和人为错误的前提下，安全地管理大量团队的操作。最终目标是让工程师摆脱琐碎的重体力工作，让他们专注于更有价值的活动。为了展示如此庞大数量运营的可行性，Eric分享了一些亚马逊云科技基础设施使用的惊人指标。例如，他们每月处理11万亿CloudWatch指标，Systems Manager管理的峰值为2000万同时运行的EC2实例，每月进行90亿次配置合规检查，以及处理850亿次CloudTrail API调用。这意味着亚马逊云科技已经解决了运行大规模工作负载可能面临的大部分操作问题，其产品旨在总结这些宝贵的经验教训，以帮助客户管理自己的环境。在谈论自动化时，埃里克意识到，由于每位客户的需求和基础设施都有所不同，因此在亚马逊云科技中没有一种固定的方法。然而，亚马逊云科技提供了超过50种互补服务，可以通过"乐高式"的方式组合在一起，以适应各个环境的需求实现自动化的操作。他展示了一张横跨各种层次的堆栈图，包括配置、可观察性、自动化、服务管理等。其中的一些亮点包括： - 配置：利用亚马逊云科技的Config每月跟踪超过90亿次的配置更改。使用SecurityHub与超过100个安全标准的集成，持续审计和评估配置以满足合规性。扫描EC2实例、容器和[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)功能中的漏洞。 - 可观察性：每月通过CloudTrail接收超过8500亿条审计轨迹日志。使用CloudWatch监控11万亿指标并设置警报。使用X-Ray跨微服务追踪应用程序问题。 - 自动化：使用Systems Manager Automation文档和500多个可重用的运行书，在亚马逊云科技服务之间协调操作并在企业边界内执行任务。维护共享的可重用运行书库以强制执行组织标准。 - 服务管理：将问题从所有账户汇总到Systems Manager OpsCenter,以创建一个单一的仪表板。使用Incident Manager的自动化剧本来降低MTTR(平均故障时间)。与ServiceNow或Jira等ITSM工具集成，以连接现有的工作流程。 - 分段：将资源管理分离成应用程序或机群，以符合组织边界的使用Application Manager和Fleet Manager。 - 审核：通过CloudTrail记录亚马逊云科技API调用，并通过Config记录配置更改，以满足严格的审核要求。埃里克再次强调，通过这种方式结合亚马逊云科技丰富的服务组合，使客户能够创建满足其独特需求的定制运营环境。这些服务有助于消除工程师的无差别工作，使他们能够提供更多的商业价值。为了说明这个问题，埃里克通过一个涉及EC2实例上微服务不稳定情况的真实案例进行了讨论。当一个CloudWatch警报触发时，如果你只有一个账户中只有少数几台服务器，那么识别问题就很简单。但是当管理着分布在50多个账户和区域中的数千个实例时，情况会变得复杂得多。在这种复杂情况下，准确找出问题所在并采取相应措施变得相当困难。使用OpsCenter将所有的数据集中到委托的“管理员”账户中，这对于您的团队能够快速确定故障排查和解决问题的关键点至关重要。当遇到操作问题时，理想的解决方法取决于具体情境——结合人工干预和自动化。例如，关键警报可能会触发自动进行自我修复的手动步骤，而工程师则负责回应。与ServiceNow等ITSM工具的集成使得团队能够在数十个亚马逊云科技账号用户界面之间轻松启动操作。亚马逊云科技的Oren Teich详细解释了Systems Manager服务如何协助团队大规模管理运营： - OpsCenter：通过将所有跨账户的操作问题集中到一个地方，从而缩短平均解决问题的时间。关键是，它基于CloudWatch警报等原始可观察性信号，并从中获取其他亚马逊云科技服务的相关上下文信息，以加速故障排除。OpsCenter不仅提供一个基本的停机警报，而是提供资源详细信息、相关的审计轨迹信息等，为响应者提供先机。此外，它还与本机集成到许多亚马逊云科技服务和ITSM工具中。 - Incident Manager：这是OpsCenter功能的扩展，专为处理高严重性事件（如生产中断）定制。它能够自动联系值班员工并提供定制的运行手册以减轻服务中断。例如，在演示过程中，它可以通过文本和电子邮件与值班员工取得联系。事故应对人员共享仪表板、文档、聊天频道等视图，以协同解决。 - 自动化：此服务支持在亚马逊云科技服务和内部服务器上执行任务。它提供了一个庞大的预定义运行手册库，同时也允许您使用YAML、JSON、Python或PowerShell编写自己的运行手册。组织可以整理经批准的手册列表，以编码组织知识。最近推出的可视化工作流程编辑器已进一步简化非技术用户的自动化创建过程。演讲者随后进行现场演示，展示了OpsCenter和Incident Manager的功能。演示场景是一个触发OpsCenter警报的Auto Scaling Group故障。在OpsCenter中，演讲者展示了如何在不同控制台之间切换的情况下，直接查看相关资源和审计历史来进行问题诊断。他还可以通过一键式自动化运行记录来解决问题，例如在调试时将有问题的事件置于备用模式。然而，问题仍然复杂，因此他将问题升级为事件，该事件涉及到一个值班资源。Incident Manager会将事件的所有信息和文件集中在一个地方，并提供结构化的运行记录来逐步完成响应步骤。这个演示说明了OpsCenter和Incident Manager如何帮助团队快速从检测操作信号过渡到调查问题和跨账户运行缓解策略。埃里克转而讨论了随着基础设施增长，管理节点大小的重要性。亚马逊云科技的Systems Manager能够在EC2、本地、混合环境中或在边缘运行的节点上一致地提供库存扫描、补丁自动化和会话管理等功能。一个关键组件是SSM代理，它允许在任何位置远程管理节点。该代理是开源软件，使用户能够验证他们的实例上正在运行的确切代码。SSM代理提供的关键功能包括： - 清单：收集详细的资源元数据，如内核版本、操作系统、网络配置、已安装软件包等。可以完全自定义以收集诸如配置文件存在性的属性。有助于跨多达100,000个节点跟踪补丁更新情况、许可证使用情况以及随着时间的推移的变化。 - 补丁管理器：基于管理员定义的规则和时间表大规模自动化操作系统和软件补丁。可以扫描当前的补丁级别并安装最新的更新，跨越Linux、Windows和macOS。对于快速修复零日漏洞至关重要。强制执行一致的补丁，而不是依赖自定义脚本。 - 会话管理器：允许在无SSH或堡垒的情况下安全访问实例。授予对跨账户运行在VPC后的资源的可见性。一位客户通过使用会话管理器消除了SSH。尽管补丁管理和库存收集在单个账户内已经具有丰富的功能，但Eric强调在整个可能包含超过500个账户的Amazon Web Services组织中集中管理这些功能的重要性。他将其提交给同事们讨论如何利用两个关键服务来实现这一目标——补丁策略和资源数据同步。首先，补丁策略允许管理员在组织层面定义修补标准，然后将其传播到账户和组织单元。这包括扫描和安装频率、目标资源类型以及批准/拒绝补丁等设置。补丁策略利用StackSets无缝地将符合要求的配置推广到所有范围内的账户，涵盖数万台虚拟机。其次，资源数据同步将每个账户的库存、补丁数据等持续发送到中央[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)存储桶。这创建了一个跨组织的所有操作数据的统一数据湖，以JSON格式存储。然后可以使用像Amazon Web Services Glue、Athena和QuickSight等服务来处理原始数据以获取业务见解。例如，Glue爬虫可以将数十亿JSON记录编目成可查询的表。Athena允许对目录执行SQL查询以生成报告。QuickSight提供通过交互式仪表板可视化见解的选项。这种资源数据同步、Glue、Athena和QuickSight的组合为大规模集中修补和库存数据提供了强大的报告方式。演讲者然后将话题交给了MuleSoft的Badri Rajan，提供了一个现实示例。MuleSoft利用Systems Manager每周两次修补400,000多个EC2实例，横跨12个自定义镜像。他们使用一个扫描和测试环境来确定批准的补丁，并将其存储在参数存储中。维护窗口然后使用运行命令从参数存储逐步安装补丁。整个过程可以在4-6小时的窗口内完成，每次修补10%的实例。对于紧急零天补丁，他们还有一个Lambda函数来立即更新资源。这个由Systems Manager驱动的解决方案帮助MuleSoft迅速应对关键漏洞，而不会导致服务中断。他们在几个月内不断改进该解决方案以提高可靠性和性能。它提供了一个其他团队可以为其自己的修补需求使用的可重复使用的框架。在总结中，演讲者推荐了两份关于系统学习者的实用资源：Skill Builder Labs 和 Practice Labs。前者提供了一个关于系统管理员功能的全面概述，包括库存、参数存储和运行命令；后者则通过互动实验展示了实际操作案例，例如使用集中化补丁修复。他们还提到了云计算专区设有专家，可以解答关于可观察性、运营及相关主题的额外问题。演讲者强调了通过调查提供会议反馈的重要性，以便他们能不断改进。总的来说，这次富有洞察力的讲座深入探讨了如何通过“乐高式”的方式组合亚马逊云科技服务，实现大规模集中的自动化操作。演讲者解决了一些常见的客户挑战，如将管理从少数服务器扩展到跨账户和区域的数千个服务器。他们强调了系统管理员、运营中心（OpsCenter）和事故处理员（Incident Manager）等服务的重要性，以帮助团队管控多达数十万个节点的运营队伍。讲座中还提供了多个实际示例，包括一个现场演示，展示如何在不同账户中应对事故。与会者在离开时对如何使用亚马逊云科技现代化和扩展其运营有了更深入的理解。 **下面是一些演讲现场的精彩瞬间：** 亚马逊云科技的自动化功能使得客户能够利用Python、PowerShell或其他编程语言轻松实现基础设施配置和运营的规模化自动化，而无需管理大量的服务器。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_0.png) 在演讲过程中，演讲者展示了如何通过CloudTrail和亚马逊云安全中心来监控安全事件，从而有助于识别可疑行为。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_1.png) 领导者们展示了Systems Manager自动化文档如何为用户提供交互式的操作手册，指导他们应对突发事件。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_2.png) 领导者们强调了在整个大规模突发事件中，拥有关键指标的共享视野的重要性。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_3.png) 此外，领导者们还强调了CloudTrail指标在突发事件应对过程中的重要作用，可以帮助识别问题并进行协同工作。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_4.png) 最后，领导者们呼吁观众们通过参与调查会议来提供反馈，以便帮助亚马逊云科技不断优化其服务。 ![](https://d1trpeugzwbig5.cloudfront.net/COP320-Centralize_your_operations/images/rebranded/COP320-Centralize_your_operations_5.png) ## 总结本次演讲主要探讨了在云端进行大规模集中化和自动化运营战略的方法。演讲首先强调，随着账户和区域基础设施的增长，自动化已成为一种必要手段。重点介绍的服务包括用于事件响应的OpsCenter、实现自我修复的自动化文档以及用于管理节点的Systems Manager。一个演示展示了如何使用这些工具解决诸如失败的自动扩展组等问题。演讲者接下来深入研究了节点管理问题。他们展示了SSM代理如何实现对大量实例的库存跟踪、补丁安装和访问。Patch Manager会根据集中化的策略来自动更新操作系统。Resource Data Sync会将库存和合规数据发送到S3，以便与Athena统一查询并在QuickSight中可视化。 MuleSoft分享了一个实际应用案例，展示了如何利用这些功能。他们使用SSM代理和实时补丁来快速部署跨400,000个实例的安全更新，而无需停机时间。通过在Parameter Store中集中化补丁测试和规划，他们可以每周两次保持一致地进行补丁更新。总的来说，本次会议全面介绍了如何将亚马逊云科技服务整合在一起，以实现云端的大规模集中化和自动化运营管理。 ## 演讲原文 ## 想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！ [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处")，一键获取亚马逊云科技全球最新产品/服务资讯！ [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处")，一键获取亚马逊云科技中国区最新产品/服务资讯！ ## 即刻注册亚马逊云科技账户，开启云端之旅！ [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家