2022 年 8 月奇瑞捷豹路虎汽车有限公司(以下简称:奇瑞捷豹路虎)的 SAP 系统全面开启云上之旅项目,数据湖等应用也迁入亚马逊云科技的 Landing Zone(着陆区)后,团队在初始阶段对新的资源管理模式感到相当困惑,这些困惑主要体现在以下几个方面:
1、现有资源类型的选择是否是最优配置?
2、对于资源的购买方式是否合理?
3、成本预算消费如何, 是否有优化空间?
带着这几大疑虑,奇瑞捷豹路虎团队和亚马逊云科技团队开启了持续优化之路。首先确定了几个核心指标点,并根据这些指标编制相应的报告。通过成本分析报告图,识别出了可能的优化方向,并决定从以下几方面进行改进:
(一)合理精简及机型优化(实例计费方式选择,实例类型调整,实例类型现代化)
(二)预留实例的覆盖及利用
(三)资源清理和标准化
(四)数据库及生命周期管理及优化
(五)监控管理及优化
基于一段时间的实际成本分布数据的收集及分析,同时重点关注影响云成本的关键指标,提出了一系列优化建议。云团队参考这些建议,并根据实际需求进行了相应的调整和优化。
![image.png](https://dev-media.amazoncloud.cn/57b938440bbb48c884d36609cbde4408_image.png "image.png")
上图列出了优化建议,如预留实例的购买及利用,实例类型现代化、按需开启、生命周期管理等,以及对应各项的潜在收益等信息。
### **01 合理精简及机型优化**
#### **1.1 实例计费方式选择**
![image.png](https://dev-media.amazoncloud.cn/9ef52cbe790146e48237ed56520eb5ef_image.png "image.png")
奇瑞捷豹路虎 SAP 系统运行于亚马逊云科技宁夏服务区域,有三套环境,生产、开发、测试,SAP 应用和和数据库都运行在[亚马逊云科技计算资源(EC2)实例](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)上,作为一个需要长期运行的企业工作负载,如何选择实例,才能做到经济性最高,业务影响度最小,这是运营阶段成本优化的首要任务。奇瑞捷豹路虎团队有如下的考量点:
1. 根据 SAP 系统的特点和业务场景,可供奇瑞捷豹路虎选择的实例有四种付费方式:按需实例、预留实例、Spot 实例,以及专用主机。
2. SAP 是生产制造核心系统,显然,Spot 实例不适合,因为 Spot 实例有随时被中断的风险,从而产生对业务的影响。
3. 按需实例,应对测试环境中部分使用频率不高的系统较为合适。
4. 预留实例(Reserved Instances-RI)虽然很难满足业务的随时突发,但 SAP 系统在生产过程中数据处理和用户访问都是可预测的,所以预留实例也非常匹配奇瑞捷豹路虎的使用场景。
5. 专用主机是物理 [EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 服务器,SAP 系统支持虚拟化平台运行,没有必要使用价格更高的物理机。
**结论和建议**:SAP 生产采用预留实例,SAP 非生产根据开机频率低于半年的采用按需实例,其它超过半年需要开机的也购买预留实例。
#### **1.2 实例类型调整**
[Amazon EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 提供多种经过优化,适用于不同使用场景的实例类型。
实例类型由 CPU、内存、存储和网络容量组成不同的组合,可灵活地为应用程序选择适当的资源组合。每种实例类型都包括一种或多种实例大小,通过扩展、伸缩资源以满足目标工作负载的要求。根据工作负载选择正确的实例是合理精简及机型优化的一个重要因素。
![image.png](https://dev-media.amazoncloud.cn/700c5093dbf54cdea1f8c9a3b36ae064_image.png "image.png")
亚马逊云科技提供超过 400 种类型的计算实例,根据性能特点可以分为:
- **通用型**:CPU / Memory=1:4;
- **计算优化型**:CPU / Memory=1:2,用于科学建模,高性能计算;
- **内存优化型**:CPU / Memory=1:8;
- **加速计算**:带 vGPU 虚拟显卡,主要用于图像处理,视频加速等;
- **存储优化型**:提供本地 SSD 存储,用于高速连续读写访问的工作负载。
SAP 迁移到云上之后,运行在着陆区底座之上,通过专线连接到线下数据中心。亚马逊云科技一侧使用 Direct Connect Gateway 和 TGW 实现云上多账号多 VPC 互联互通。
亚马逊云科技的云上着陆区方案是一个可配置的、安全的、可扩展的、多账号管理的优良解决方案。它是基于亚马逊云科技的最佳实践,来帮助客户建立一个多租户云上环境,是标准化的、可靠的、安全的。
![image.png](https://dev-media.amazoncloud.cn/95aa866926d94916970c8875355aa820_image.png "image.png")
云上着陆区上运行奇瑞捷豹路虎 SAP 8 套主要系统,分别是 ECC、APO、EWM、HCM、BW/BPC、PI、Livecache 和 EP,以及一些辅助系统。每套 SAP 应用由三个组件构成,分别是 SAP PAS、SAP AAS、SAP ASCS:
- **PAS(Primary Application Server)**:主应用服务器。
- **AAS(Additional Application Server)**:扩展应用服务器。
- **ASCS(ABAP Central Services)**:SAP 应用核心服务,是 SAP 应用的一个核心控件,包含两个主要控件:消息服务(Message server),用于处理负载均衡,所有的用户请求进来首先通过消息服务,再分发到各个 SAP 应用服务器中;队列服务(Enqueue Server),锁表操作,为了防止不同的操作同时对一条记录进行修改而进行锁表,保证数据一致性。
PAS 和 AAS 的区别:PAS 包含 ASCS 而 AAS 不包含。一个系统中 PAS 只有一个,而 AAS 可以有很多个(根据业务量横向扩展)。
如果 ASCS 出现了任何问题,整个 SAP 系统相当于崩溃。为了保障这些核心模块的高可用性,奇瑞捷豹路虎团队在亚马逊云科技的宁夏区域的多可用区部署了[高可用集群](https://aws.amazon.com/cn/blogs/china/adaptive-high-availability-solution-across-availability-zones-on-sap-cloud/?trk=cndc-detail),设计应用服务器主备运行,数据库服务器与核心服务器双活运行灵活架构,获得了更好的扩展性和可用性,同时具备故障转移能力。
SAP 上云以后,通过 CloudWatch 对 EC2 运行状态持续一个多月的监控,奇瑞捷豹路虎团队得出如下结论:
1)ASCS/ERS CPU 利用率较高,更匹配计算优化型实例,所以选择了 C5 家族的实例类型;
2)PAS/AAS/DB 内存利用率较高,更匹配内存优化型实例,所以选择 R5 家族实例;
3)非生产环境下的开发和测试系统,数据量和访问量不高,更适合 M5 家族通用型实例;
4)云上着陆区 Shared 账号下的共用系统,如:基础架构即服务,代码仓和版本控制,软件包管理服务器等使用价格更低的 T3 家族实例。
通过机型调整,不仅提升了计算资源的利用效率,还能减少了的浪费,同时也降低了云成本。
#### **1.3 实例类型现代化**
亚马逊云科技实例类型的大小,新旧不同代次,每小时的价格都是不一样的。亚马逊云科技技术专家建议使用最新一代的实例类型来运行工作负载,因为最新一代次的性价比会最高。根据这个提议,奇瑞捷豹路虎团队将一批通过 CloudEndure(亚马逊云科技针对于计算资源的迁移和容灾解决方案)迁移上云的机器类型调整到最新一代,比如 t2.large (On-Demand Linux pricing 0.7558 CNY per Hour),调整为同配置的 t3.large (0.3834 CNY per Hour),每个实例费用节省 50%左右;m4.large (On-Demand Linux pricing 0.8078 CNY per Hour)调整为 m5.large (0.678 CNY per Hour),每个实例费用节省 20%左右。
综上,机型现代化也至少将可调整的计算资源的使用成本减少 20%。
### **02 预留实例的覆盖及利用**
前面讲到对于长期运行的实例,购买预留实例(Reserved Instances-RI)性价比相对高,所以奇瑞捷豹路虎团队会定期看预留实例的覆盖率和利用率来进行相关优化。
预留实例的覆盖率:是指已购买预留的实例与所有在使用的实例的占比,以此可以看出那些按需在运行的实例是不是需要买预留实例来覆盖。
预留实例利用率:是指已经买的预留实例被使用到的比率,一般预留实例的利用率越高越好。
经过分析预留实例的覆盖率及使用率,奇瑞捷豹路虎团队发现开始时 8 月份的预留实例覆盖率并不高只有 66%,这意味着比较多的 EC2 还在按需计费,成本相对较高,急需进行预留实例的分析及购买。
#### **2.1 购买预留实例(Reserved Instance-RI)替换按需实例**
根据实际的使用场景及预留实例的分类及价格因素,持续进行预留实例的购买及使用匹配,以最大限度的提高覆盖率及利用率。可以看到下图覆盖率从 66%提升到了 98.5%,同时 RI 利用率也基本保持 90%。
![image.png](https://dev-media.amazoncloud.cn/094e7a8e8dc244b99052f316b1f3a9f5_image.png "image.png")
根据实际的使用场景及预留实例的分类及价格因素,持续进行预留实例的购买及使用匹配,以最大限度的提高覆盖率及利用率。可以看到下图覆盖率从 66%提升到了 98.5%,同时 RI 利用率也基本保持 90%。
![image.png](https://dev-media.amazoncloud.cn/941a7f3263cd4115b41e1d1ea84744b0_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/ea440cc7415848f7bc91ac40f02c64d8_image.png "image.png")
经过预留实例的购买及匹配,云上计算资源云上费用明显下降,具体如下图:
![image.png](https://dev-media.amazoncloud.cn/bf924d3ded8b4e6aacce691384583b34_image.png "image.png")
这是 SAP 系统上云前后 8 个月计算资源的费用变化情况,折线图数据对应主纵坐标轴,柱形图数据对应次纵坐标轴。可以看到 Total Charges 这条线代表总费用,是呈下降趋势。
- 其中 2022 年 8 月到 2023 年 1 月是 SAP 云成本优化阶段,经过 6 个月的积极的优化措施,目前云上费用已经达到了预期效果。
- 2 月份进入了成本运营阶段,云费用已经趋于平稳。
将上图根据运行操作系统不同进行拆分,运行 Linux OS 的 EC2 费用如下:
![image.png](https://dev-media.amazoncloud.cn/39fe7fd64f424e3e8577b4a062ea0381_image.png "image.png")
- 红色线条代表 Linux EC2 按需实例费用,浅绿色代表 Linux EC2 预留实例费用。
- 可以看到去年 9 月后,按需实例的费用下降到千元以下,预留实力费用有部分增加。这是因为从 7 月上云后,通过 Cloud Watch 监控 EC2 的 CPU、内存利用率,调整合适的机型,然后订阅了部分无需预付费的 RI,从而减少了 On Demand 机器的数量。
- 同机型的 Linux 系统,RI 相比 On Demand 费用可以降低 70%,相当于打三折。生产环境有一个 xlarge 的机型,Linux 系统的 RI 费用是 0.339 每小时,On Demand 费用是 1.766,所以用预留实例最省钱。虽然 RI 省钱,但有个明显的缺点,就是一次要购买一年期或三年期,中途不可更改实例类型。如果变更了账号下实例的类型,但又没有合适的预留实例相匹配,就会按照按需实例收费,这个要注意一下。
SAP 部分周边系统,比如 SOLMAN、GRC、WPB 和 OPENTEXT,使用 Windows 操作系统,是通过亚马逊云科技提供的 CloudEndure 工具迁移上云的,运行 Windows 系统的 EC2 费用如下:
![image.png](https://dev-media.amazoncloud.cn/d9bbb6d4f54647da9a6f56192a16e2cd_image.png "image.png")
上图是 WINDOWS 系统的费用趋势,可以看到前面几个月按需实例费用较高,经过讨论,并结合当前的 RI 利用率,查找多余的 RI,然后评估是否可以调整实例类型来匹配这些多余的 RI,经过分析,最终决定将 Windows m4.xlarge 调整成有 RI cover 的 M5.xlarge,省去了这些 EC2 的按需成本,并且 M4 系列调整成 M5 系列,实现了机型现代化。
成本优化是弹性计算中创新的一个关键。面对亚马逊云科技提供的 400 多种实例,选择起来会比较困难,也会不太准确。亚马逊云科技技术专家协助奇瑞捷豹路虎团队使用 Compute Optimizer,Cost explorer 等工具,Compute Optimizer 会用根据隶属账号下资源使用情况建立模型,对当前工作负载进行理解和分析,输出报表,并推荐更适合的、性价比更高的 EC2 实例。在机型 Right Sizing 之后,批量购买了预留实例,使得实例覆盖所有生产和开发系统,长期开机系统的预留实例覆盖率达到 100%。
#### **2.2 开发测试环境按需实例自动停止/启动(Automatic stop/start)**
考虑测试环境的部分机器使用频率不高,运行在按需实例上,在非生产时间和非测试时间段自动停止这些计算实例。每天运行 8 个小时的按需实例的成本比每天运行 24 小时的相同实例的成本低大约 66%。
通过以下两种方法,可以实现定时对 QAS 环境内的 EC2 自动开机和关机的操作:
1、Lambda + EventBridge:通过计划任务,按需对服务器启停。创建一个 [Amazon SNS](https://aws.amazon.com/cn/sns/?trk=cndc-detail) 主题以处理 EC2 服务器启停失败的通知,将云团队共享 EMAIL 账号配置为订阅者,接收告警信息,以进一步分析服务启停失败的原因,并进行相应的处理。
![image.png](https://dev-media.amazoncloud.cn/8e883fa6ede5435ca97e6e0453686081_image.png "image.png")
2、通过 Systems Manger Maintenance Windows 来安排 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)实例的启动和停止。Amazon Systems Manager 的功能 Maintenance Windows 可用于制定计划,规定何时在节点上执行可能造成中断的操作,例如修补操作系统、安装软件或补丁,或者启动/停止 EC2 实例。这个操作不需要额外编写和配置程序或脚本,只需要通过简单的 5 个步骤就能完成:
1. 登录 Amazon Management Console;
2. 创建有计划的维护时段;
3. 注册自动化任务;
4. 创建一个在此任务中响应的目标(将需要自动启停的 EC2 实例 id 注册到自动化任务中);
5. 自动化任务定时对目标执行开关机操作。
Automation 可帮助客户构建用于大规模部署、配置和管理 Amazon 资源的自动化解决方案。借助 Automation,奇瑞捷豹路虎团队可以精确控制自动化的并发性。
![image.png](https://dev-media.amazoncloud.cn/5d092937a37f46c4a99cf2fa3c4ebfb5_image.png "image.png")
### **03 资源清理和标准化**
#### **3.1 僵尸资源回收**
成本优化阶段,亚马逊云科技通过工作坊的形式介绍了 Cloud FinOps 的概念,强调:
(1)团队协作;
(2)成本节约,人人有责;
(3)每个人对云的使用量负责。
![image.png](https://dev-media.amazoncloud.cn/353d7fb8a9674fa19c194d9de3367f85_image.png "image.png")
根据每个人在云上所掌握的技能情况负责不同资源的成本管理,即每个人都拥有云使用的所有权,每个人对云的使用量负责。基于 FinOps 的循环方法论:**信息、优化和运营**。每天通过 Cost explorer 监控资源使用情况及费用变化趋势,定期寻找僵尸,闲置和孤立的资源并终止它们。也能达到资源合理利用,降低成本的目的。省钱就是赚钱,比如做了如下僵尸资源回收措施,每月节约好几百块:
1)网关端点提供对 S3 和 DynamoDB 的访问,并且是免费的。接口端点提供对一系列其他服务的访问,但肯定不是免费的。一个端点每月的租赁费用不明显,但是许多接口端点的成本却迅速增加。及时清理不必要的 VPC Endpoint,**降费>¥60元/月**(CNY 0.0875 per VPC Endpoint Hour);
2)2022.11 月\~ 2023.1 月,QAS 机器拆分,匹配预留实例,释放大容量磁盘存储服务(EBS),使用小容量磁盘,条带化提升磁盘 IOPS 和吞吐量;(APR 2.1TB、BPR 700GB、WPR 1.9 TB、XPR 300GB、EPR 900GB、HPR 500GB,共计回收 6.4TB gp3 磁盘),**降费>¥600元/月**;
3)Elastic IP 回收,确认 EC2 通过 Private IP 通信(通过 Public IP,Elastic IP 或者 ELB 访问,流量会算在 regional data traffic 里面);**降费>¥23.76元/月**( 0.033 CNY per Elastic IP address not attached to a running instance per hour)。
注意,这个 EIP 如果被合理使用,只收流量费,如果申请了不用,会收取租赁费,不用就不要申请。
#### **3.2 EBS 类型标准化**
![image.png](https://dev-media.amazoncloud.cn/fe2da4a1b8f44c5d821ae1c0cdae18a3_image.png "image.png")
对 EBS 卷类型和大小实施标准化策略。通过使用适合业务当前需要大小的通用(GP2)卷而不是较小的预配置 IOPS(IO1)卷,您可以降低 EBS 存储成本。对块存储实施条带化,还可以跨多个 GP2 卷创建 RAID 卷,以比 IO1 卷更低的价格获得更高的性能。
如果你的应用对磁盘空间使用量超过 1TB,但对读写 IO 请求和吞吐量无要求,选择 sc1,每月每 GB 只需要 ¥0.0996。该类型磁盘适合做 EC2 本地数据归档使用;
其次考虑 st1,吞吐优化 HDD,每月每 GB ¥ 0.299,吞吐量可以在 5MB/s~500MB/s 之间调整,但使用该类型磁盘容量最小值 125GB,最大值 16TB;
标准磁盘的性能在 HDD 中最好,价格最贵,每月每 GB ¥ 0.364,但是对容量有限制,最小值 1GB,最大值 1TB;
应用对磁盘空间使用量小于 1TB,读写 IO 请求每秒在 100~3000,选择 gp3,最划算。每月每 GB 预置存储 ¥0.5312;
如果磁盘容量超过 1TB,建议使用 gp2,IOPS 可以在 3000~16000 之间突增。每月每 GB 预置存储 ¥ 0.664;
对 IOPS 要求极高的应用直接选择 io1 这种磁盘,IOPS 最大值到 64000。每月每 GB 预置存储 ¥ 0.764,每月每预置 IOPS ¥ 0.399。
这 6 种 EBS 类型中里面,只有 gp3 可以对 iops 和吞吐量定制,缺点就是面对突发情况不能自动伸缩。
2022年10月,奇瑞捷豹路虎团队对 SAP 非生产环境进行了调整优化:gp2/gp3 to sc1/st1,实现降费 14.33%;
在满足业务的稳定性和保密性要求基础上,充分利用云存储的多样性和兼容性特点,从存储的设计,使用,监控,优化等环节实现云存储的价值最大化和业务成本的持续改善。
### **04 数据库及生命周期管理及优化**
#### **4.1 SAP QAS 应用和数据库拆分**
奇瑞捷豹路虎 SAP 系统上云后,发现最初整合的同系统服务器存储和资源使用并没有达到降本增效的效果,反而因为合并后产生了更多的授权费用,因此经过团队综合讨论,提出了拆分服务器改进计划。
此次的改进计划不仅仅是为了下调成本,更是为了提高整个系统的可用性和稳定性,通过将应用程序和数据库进行拆分,可以减少单个服务器承载的压力,提高系统的性能和响应速度。同时,将数据库所在计算实例的 CPU 下调也可以降低 Oracle license 相关的费用,从而达到成本优化的目的。
![image.png](https://dev-media.amazoncloud.cn/2155678ecde9455bb00d55e36a066046_image.png "image.png")
服务器拆分计划图
针对第一台服务器的拆分,奇瑞捷豹路虎团队进行了团队讨论并制定了整体计划,预计两周时间完成。计划中明确的标识了团队协同顺序和责任人。2022年11月1日,SAP BPR 首次拆分项目如期启动,主要分为三个步骤。
第一步,备份 BPR 所有服务器,并通过备份创建起新的 EC2 数据库服务器,原 EC2 服务器保留为应用服务器。
第二步,在新的数据库服务器上卸载 SAP 应用和数据,并缩小相关的存储空间。同时,修改新服务器相关的 Host 和数据库连接接口信息,并拉起新的数据库。为了提升数据库的性能,奇瑞捷豹路虎团队特别增加了存储条带化改善。
第三步,在原服务器上单独备份了 Oracle 数据库。团队针对 Oracle 实例和软件进行了删除操作,包括设置相关文件和缩小数据库清理后的存储空间。最后,奇瑞捷豹路虎团队修改应用接口并重新连接到新的数据库,并拉起 SAP 应用。
整个过程中,业务协助全面测试正常,确保了系统的高效和稳定,降低了 Oracle License 近 70%,同时确保了系统架构的合理化,满足业务要求。
#### **4.2 S3、EFS、EBS 生命周期管理及清理**
奇瑞捷豹路虎 SAP 项目上云后,主要使用了 S3、EFS、EBS 三大类相关存储,同时从账单和存储监控发现了僵尸数据和项目过程相关数据,团队初步判断此类型数据可以进行清理,从而保障各类存储的合理利用。
经过前期成本跟踪分析,发现了云存储存在大量的冗余和重复数据,如 S3 线下迁移临时备份文件、项目软件备件,EFS 项目过度文件,EBS 相关验证和临时存放文件,为此,团队按照云账户和应用 Owner 进行排查,逐个确认 S3、EFS、EBS 相关目录,并邀请项目成员支持确认,确认无误后,奇瑞捷豹路虎团队启动了数据清理。
首先,对 EFS 存储进行了清理,根据数据类型,将数据分为两类,一是临时文件,直接进行删除清理释放空间,二是归档文件,针对数据访问未知部分,团队启用了 S3 智能分层功能,针对数据访问较少部分,团队直接启动生命周期管理至 S3 冷冻层。
其次,对 EBS 存储进行了清理。同样依据数据类型,将数据分为三类:产品应用文件、系统审计日志和操作系统日志。对于产品应用文件,直接进行删除操作;对于系统审计日志,按照安全策略迁移至冷存储中;而对于操作系统日志,则同样归档至冷存储中。
最后,对 S3 存储进行了清理。同样根据数据类型,将数据分为三类:项目相关文件、审计归档文件和数据库与 EC2 备份。对于项目相关文件,将其归档至冷存储中;对于审计归档文件,已经进行过归档处理,因此直接进行本地清理;而对于数据库和 EC2 备份,则已经归档至冷存储中,因此同样进行本地清理即可。
整个清理过程中,团队成员们认真负责,按照任务分配和时间计划,顺利完成了各项工作。这次云存储清理计划,不仅有效地优化了资源利用率和成本控制,同时也实现了云存储备份策略的优化。
![image.png](https://dev-media.amazoncloud.cn/6037cbf2b882439890f39ebd38fedbf6_image.png "image.png")
云存储清理总结图
#### **4.3 RDS 成本优化**
Amazon Relational Database Service ([Amazon RDS](https://aws.amazon.com/cn/rds/?trk=cndc-detail)) 是一项 Web 服务,让用户能够在 Amazon Web Services 云中更轻松地设置、操作和扩展关系数据库。可为用户提供一个经济有效、容量可调的符合行业标准的关系数据库,并承担常见的数据库管理任务。
结合奇瑞捷豹路虎数据湖平台需求及成本因素,奇瑞捷豹路虎团队选择在 [Amazon RDS](https://aws.amazon.com/cn/rds/?trk=cndc-detail) 上创建 PostgreSQL 数据库实例来存放 Data Market 层的业务数据。在后续的实际使用过程中针对如下几个方面对 RDS 的使用进行了相关的成本优化:RDS 存储类型、RDS Multi-AZ、RDS RI/Snapshot。
- RDS 存储优化:存储类型由 io1 变更为 gp2,月成本降低 45%(在启动 RDS 实例时默认存储类型为较贵的 io1)。io1 类型提供较高的 IOPS 但费用比较昂贵,根据业务的实际需要将存储类型变更为 gp2。
![image.png](https://dev-media.amazoncloud.cn/3a39c087458c46e4b1f8216432932169_image.png "image.png")
RDS 存储类型图
![image.png](https://dev-media.amazoncloud.cn/5249ddeb4e6242a2966c127133bd9465_image.png "image.png")
RDS 存储优化前后比较图
RDS Multi-AZ:开启 Multi-AZ 功能 RDS 实例成本会上涨一倍,建议 DEV/QAS 环境不开启,PRD 环境根据业务的实际需求确认是否开启。
RDS RI:RDS 实例无法长时间关闭(超过 7 天会自动开启)如果需要长时间使用 RDS 建议购买预留实例节省费用。针对 DEV/QAS 等环境如果数据库不经常使用可以通过数据库创建快照方式保存数据,在需要使用数据库时,通过快照创建新的数据库实例(还原时间 1~2 小时)以此来节省数据库实例的使用费用。以下是 RDS 数据库实例费示例用对比:
![image.png](https://dev-media.amazoncloud.cn/66f24b99d79c4964a370f66e9938e08a_image.png "image.png")
RDS 实例 RI/On-Demand 费用对比图
### **05 监控管理及优化**
随着奇瑞捷豹路虎各个应用系统及平台陆续迁入着落区,需要监控的系统和范围也增加了很多,同时也带来了较高的监控计算成本,在同亚马逊云科技团队进行深入沟通后,奇瑞捷豹路虎团队从如下几个方面对着陆区的监控进行优化。
#### **5.1 区分监控对象**
着陆区包含多个系统不同的运行环境,如开发、测试和生产等,各个环境对系统监控的需求等级其实是不一样的。在系统上云初期,为了能确保上云进度,并实现对云平台的性能的准确监控和评估,没有区分各类运行环境的差异,统一配置了完整的监控指标,来全面监控各个系统的运行环境。
在进入稳定的运维阶段后,奇瑞捷豹路虎团队针对不同的系统等级及运行环境做了差异化配置,在满足系统需求的前提下,做到进一步的成本优化。
![image.png](https://dev-media.amazoncloud.cn/da962e16c8274922ad325fc307792e57_image.png "image.png")
#### **5.2 定义监控指标**
亚马逊平台提供很多免费的性能监控指标,包括 CPU、内存、磁盘和网络等指标,但是如果需要更详细的指标监控,则需要安装 Cloud Watch Agent 进行监控,这些接口指标的监控多数是收费的,为了优化成本结构,此类监控功能一般只针对关键系统的生产环境进行开启。同时,针对不同的系统级别和运行环境,奇瑞捷豹路虎团队标准化了监控的指标维度。
![image.png](https://dev-media.amazoncloud.cn/32a95971251c47f2941843f15cee92c3_image.png "image.png")
#### **5.3 调整监控频率**
Cloud Watch 默认的监控频率是5分钟一次数据采集,这个频率是免费,也可以支持绝大部分应用场景。系统迁移阶段,奇瑞捷豹路虎团队为了能近实时的监控服务器的压力运行状况,大部分系统都安装了 Cloud Watch Agent,并将监控都调整到 1 分钟一次的采集频率。
在项目上线后,监控频率就不再需求这么高的频率了。在同亚马逊云科技支持团队沟通后,奇瑞捷豹路虎团队制定了详细的系统监控规范,将不再需要高监控频率的系统禁用了 Cloud Watch Agent,同时将监控调整回 5 分钟一次的频率。在满足系统常规监控的需求下,也节省大量的计算成本。
#### **5.4 管理日志生命周期**
针对服务器的监控日志,奇瑞捷豹路虎团队也规范了日志文件的生命周期管理,同时也可以节省一定的存储成本。
![image.png](https://dev-media.amazoncloud.cn/1a2029027423445c98b939110a06eb81_image.png "image.png")
#### **5.5 拓展监控预警渠道**
亚马逊云平台提供标准的邮件通知功能,但受限于邮件的及时性问题,奇瑞捷豹路虎团队基于亚马逊云科技云平台提供 Lambda 功能,整合了企业微信群机器人通知功能,将预警消息转发到对应的服务监控群中,实现实时监控的目的。
![image.png](https://dev-media.amazoncloud.cn/ce9587485d9043749a33721ae36425c3_image.png "image.png")
上图中,奇瑞捷豹路虎团队充分利用了 Cloud Watch 自带的 Metrics 监控和 Alarms 预警功能,将预警信息通过 SNS 服务导向自定义的 Lambda 函数,从而实现了将 亚马逊云科技云平台的预警信息转发到企业微信的目的。同时,为了高效响应,针对不同的业务服务创建了对应的业务分组,预警消息将被自动推送到合适的群组中。
经过奇瑞捷豹路虎团队和亚马逊云科技支持团队的相互配合,优化后的监控系统在满足了快速反应的前提下,在整体成本上也有了很大程度的优化。
![image.png](https://dev-media.amazoncloud.cn/65acf2a93c814918b92450116c6ff9fd_image.png "image.png")
通过区分定义不同应用环境合理的监控维度和监控粒度,如针对生产环境和测试环境区分设置不同的监控指标和数据采集频度,在充分满足业务需求的前提下,将监控成本进行了较大幅度的降低。通过上图可以直观的看出,调整后监控成本有近50%左右的降低。
经过一系列的优化工作, SAP 整体上云后,监控成本降比达到了45%。大家感受到因为云资源的特性,云上资源管理和线下的不同,并且可以持续深挖优化的空间,达到降本增效的效果。
![image.png](https://dev-media.amazoncloud.cn/dbf5450febae40079da87584cdaeed4d_image.png "image.png")
持续优化成本对比图
本着始终以提供安全、可靠、具有成本优势的云上 IT 服务作为团队的核心目标,奇瑞捷豹路虎团队将持续进行云上优化,并且更好地满足业务需求。
### **总结**
本文主要探讨了奇瑞捷豹路虎 SAP 系统迁移上云之后,如何适应并优化新的资源管理模式的实践经验。在迁移过程中,团队深入进行了系统优化工作,主要围绕以下五个关键方面:
(一)合理精简及机型优化(实例计费方式选择,实例类型调整,实例类型现代化)
(二)预留实例的覆盖及利用
(三)资源清理和标准化
(四)数据库及生命周期管理及优化
(五)监控管理
通过这一系列深度优化工作,奇瑞捷豹路虎团队不仅深刻理解和实践了[云财务模式](https://aws.amazon.com/cn/campaigns/cloud-economics/?trk=cndc-detail),更体会到了这一模式为公司带来的显著灵活性和经济性。这一过程不仅帮助公司有效地管理和使用云资源,同时也为公司未来业务需求提供了有力的支持,确保了在使用亚马逊云科技服务时能够实现更经济、更高效的运作。
在此过程中特别感谢亚马逊云科技云经济专家-毛弋川,亚马逊云科技云经济解决方案架构师-江琦,亚马逊云科技存储产品专家-范丽军,亚马逊云科技存储产品架构师-戴逸洋、王志达的全力支持。
### **参考材料**
- https://www.amazonaws.cn/en/newsroom/2022/0927-Qirui/?trk=cndc-detail
- https://aws.amazon.com/aws-cost-management/aws-cost-optimization/right-sizing/?trk=cndc-detail
- https://docs.aws.amazon.com/cost-management/latest/userguide/ce-rightsizing.html?trk=cndc-detail
- https://www.wellarchitectedlabs.com/cost/100_labs/100_aws_resource_optimization/1_intro_right_sizing/?trk=cndc-detail
- https://aws.amazon.com/sap/?trk=cndc-detail
- https://docs.aws.amazon.com/sap/latest/general/welcome.html?trk=cndc-detail
- https://www.sap.com/dmc/exp/2014-09-02-hana-hardware/enEN/#/solutions?filters=v:deCertified;ve:23?trk=cndc-detail
- https://www.sap.com/dmc/exp/2018-benchmark-directory/#/sd?trk=cndc-detail
- https://docs.aws.amazon.com/sap/latest/general/sap-hana-aws-ec2.html?trk=cndc-detail
**奇瑞捷豹路虎云运营团队**
> *奇瑞捷豹路虎云运营团队是奇瑞捷豹路虎 IT 负责云上环境日常架构及运维管理的一只虚拟组织,其成员来自 IT 各职能板块。他们全程参与并与亚马逊云科技团队协同交付了 SAP 上云及数据湖的迁移等项目,在项目交付的同时也逐渐成长起来,并在项目上线后顺利完成了内部自主运维及持续优化的一系列转换。目前团队不仅负责云上资源管理、服务运维和技术支持等工作,确保各系统平台及相关服务的稳定运营,同时也持续推动奇瑞捷豹路虎的数字化转型赋能工作,助力奇瑞捷豹路虎“数智”化发展。*