Amazon Fault Injection Service (FIS) 帮助您大规模实施混沌工程。今天,我们将推出新的场景,让您演示如果亚马逊云科技可用区遇到完全电源中断或从一个亚马逊云科技区域到另一个区域的连接丢失,您的应用程序将按预期运行。
您可以使用这些场景进行实验,建立您的应用程序(无论是单区域还是多区域)在出现问题时按预期工作的信心,帮助您更好地了解直接和间接依赖关系,并测试恢复时间。在您对您的应用程序进行了测试,并知道它能够按预期工作后,您可以将实验的结果用于合规目的。当与亚马逊云科技弹性中心的其他部分结合使用时, FIS 可以帮助您全面了解应用程序的整体弹性状态。
### **场景简介**
我们在 2021 年推出了 FIS,以帮助您在亚马逊云科技应用程序上执行受控实验。在我写的关于 FIS 发布的帖子中,我向大家展示了如何创建实验模板并使用它们进行实验。这些实验是使用强大的低级操作构建的,而这些操作影响特定类型的特定亚马逊云科技资源组。例如,对 [EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 实例和自动扩展组进行以下操作:
![image.png](https://dev-media.amazoncloud.cn/ebf6564c16a64f2f92d5c3cc90a33911_image.png "image.png")
将这些操作作为构建块,我们最近推出了亚马逊云科技 FIS 场景库。库中的每个场景都定义了可用于测试应用程序弹性的事件或条件:
![image (1).png](https://dev-media.amazoncloud.cn/8ae0c85939584637b17c1785adbc771e_image%20%281%29.png "image (1).png")
每个场景都被用来创建一个实验模板。您可以按原样使用这些场景,也可以将任何模板作为起点,并根据需要对其进行自定义或增强。
这些场景可以针对同一亚马逊云科技帐户中的资源,也可以针对其他亚马逊云科技帐户中的资源:
![image (2).png](https://dev-media.amazoncloud.cn/406248c879754d0cbd036a730b48bb96_image%20%282%29.png "image (2).png")
### **新场景**
#### **有了以上这些背景,让我们来看看新的场景。**
AZ 可用性:电源中断—此场景暂时“拔掉”单个可用区中目标资源集的电源,包括 [EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 实例(包括 EKS 和 ECS 集群中的实例)、EBS 卷、自动扩展组、VPC 子网、[Amazon ElastiCache](https://aws.amazon.com/cn/elasticache/?trk=cndc-detail) for Redis 集群和 Amazon Relational Database Service (RDS) 集群。 HYPERLINK "https://aws.amazon.com/rds/?trk=cndc-detail" 多数情况下,您将在具有多个可用区资源的应用程序上运行它,但当预期会发生断电时,您也可以在单可用区应用程序上运行它。它针对单个 AZ,也允许您禁止一组指定的 IAM 角色或自动扩展组在实验期间启动新实例或启动已停止的实例。
**新操作和目标体验**使您可以一目了然地查看所有内容—场景中的操作及其影响的亚马逊云科技资源类型:
![image (3).png](https://dev-media.amazoncloud.cn/6f5dd1c023594369bac2fd12d595c44a_image%20%283%29.png "image (3).png")
场景中包括用于自定义实验模板的参数:
![image (4).png](https://dev-media.amazoncloud.cn/085e71741cd444c6aab1ec5deea7f703_image%20%284%29.png "image (4).png")
**高级参数—目标标签**让您控制标签键和值,这些键和值将被用于定位实验的目标资源:
![image (5).png](https://dev-media.amazoncloud.cn/da7356ea63894d5fafd0509cea84f428_image%20%285%29.png "image (5).png")
**跨区域:连接性**–这种场景使您在测试区域的应用程序无法访问目标区域的资源。这包括来自 [EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 实例、 ECS 任务、 EKS 容器组和附加到 VPC 的 Lambda 函数的流量。它还包括跨传输网关和 VPC 对等连接,以及跨区域的 S3 和 DynamoDB 复制。场景在解包后如下所示:
![image (6).png](https://dev-media.amazoncloud.cn/40a28b3da9904cc094cb7dcb1e2580e0_image%20%286%29.png "image (6).png")
此场景运行 3 小时(除非您更改 **disruptionDuration** 参数),并以指定的方式隔离测试区域与目标区域,并使用高级参数控制用于在隔离区域中选择受影响亚马逊云科技资源的标签:
![image (7).png](https://dev-media.amazoncloud.cn/113bdc73f15f4304af66c2b1c06d4610_image%20%287%29.png "image (7).png")
您可能还会发现,在这个场景中使用的**中断**和**暂停**操作本身就很有用:
![image (8).png](https://dev-media.amazoncloud.cn/4d425e0e14d44935b5b128a77c8a75ae_image%20%288%29.png "image (8).png")
例如,**aws:s3:bucket-pause-replication** 操作可以用来暂停一个区域内的复制。
### **注意事项**
关于新的场景,有几点需要了解:
**区域**—新场景可在 FIS 可用的所有商业亚马逊云科技区域中使用,无需额外付费。
**定价**—您为您运行的实验所消耗的动作分钟付费;请参阅 Amazon Fault Injection Service 定价页面了解更多信息。
**命名**—该服务以前称为 Amazon Fault Injection Simulator。\
— Jeff;
文案:Package and deploy models faster with new tools and guided workflows in [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)
文章来源:\
https://aws.amazon.com/cn/blogs/aws/package-and-deploy-models-faster-with-new-tools-and-guided-workflows-in-amazon-sagemaker/?trk=cndc-detail