### **01 上云背景**
奇瑞捷豹路虎汽车有限公司(以下简称“奇瑞捷豹路虎”)成立于 2012 年 11 月,由奇瑞汽车股份有限公司和捷豹路虎汽车共同出资组建而成,是国内首家中英合资的高端汽车企业。自成立以来,奇瑞捷豹路虎就在其生产基地规划和建设数据中心。截至 2020 年,数据中心的一些硬件已超期服役。由于硬件老化,产生了很多问题,造成系统不稳定,直接影响到公司业务的顺利开展和执行,主要体现在:
1. 数据库性能和稳定性下降,影响业务体验;
2. 存储超期服役和不可扩展,影响数据可靠性;
3. 缺乏厂商持续的技术支持,影响问题快速响应和解决;
4. 由于现有灾备方案切换复杂且长期未演练,无法有效抵御灾难和风险。
2022 年 9 月 27 日,亚马逊云科技发布新闻稿:[奇瑞捷豹路虎选择亚马逊云科技作为其 SAP 系统的首选云服务供应商](https://www.amazonaws.cn/en/newsroom/2022/0927-Qirui/?trk=cndc-detail)。新闻稿的发布,标志着奇瑞捷豹路虎已将 SAP 全模块成功迁移到云端,这不仅加速了企业数字化转型的步伐,还一举解决了先前提及的多个问题。
随着奇瑞捷豹路虎 SAP 全模块成功迁移上云,奇瑞捷豹路虎数字化转型进入一个新篇章。SAP 上云将进一步推动高度定制化生产,更好地满足豪华汽车消费者的个性化需求,同时也更加能提高企业运营的敏捷性。
本系列文章将用来介绍奇瑞捷豹路虎上云历程背后的故事,这将包括:
I. 奇瑞捷豹路虎上云历程和深入优化之道 1 – 合理精简(本篇)
II. 奇瑞捷豹路虎上云历程和深入优化之道 2 – 清理和标准化(敬请关注)
III. 奇瑞捷豹路虎上云历程和深入优化之道 3 – 持续运营和治理(敬请关注)
### **02 业务系统介绍**
奇瑞捷豹路虎 SAP 系统是整个公司的关键系统,覆盖了公司核心业务,如生产制造、采购、物流、销售、财务等。鉴于 SAP 系统对于公司运营的重要作用,公司业务对系统的 RPO(Recovery Point Objective)(小于 10 分钟)、RTO(Recovery Time Objective)(小于 4 小时)有非常高的要求。此外,SAP 系统还需与其他几十个外围系统进行数据交互,因此,系统稳定性对业务的顺利运作至关重要。
下图展示了 SAP 系统核心业务模块与周边业务系统的关联关系:
![image.png](https://dev-media.amazoncloud.cn/92ece995fdd142c58e3ff3ce2d845125_image.png "image.png")
图 1 SAP 系统关联图
在 2020 以及 2021 年,硬件问题曾引发过 SAP 系统的多次故障,这些故障直接影响了公司的核心业务,导致 IT 及业务部门都承受着巨大压力。因此,保证 SAP 系统稳定运行成为头等大事。
### **03 合理精简**
在奇瑞捷豹路虎上云历程中,“合理精简(Right Sizing)”是重中之重,这是此具体迁移项目的重要原则,也体现在上云过程中理念和方法论的更新。但在项目的初步计划阶段,这一点并未得到足够强调和关注。
奇瑞捷豹路虎关键业务系统上云之旅始于先前提到的 SAP 系统迁移上云。在计划启动的初期,项目组面临着一系列问题,这些问题是所有迁移项目所普遍共有的。
1. 预算问题 – SAP 系统迁移上云后,一年乃至五年的费用是多少?
2. 配置问题 – SAP 系统迁移上云,具体的云上资源如何选择?
3. 迁移问题 – SAP 系统迁移上云,具体的迁移步骤是什么?
这些问题看似普遍,但在每一个具体迁移项目中,回答的方式和关注点不同,解决这些问题途径也不同。为此,亚马逊云科技团队和奇瑞捷豹路虎团队展开了如下关键话题的研讨:
- 云经济分享
- 奇瑞捷豹路虎 SAP 云之旅研讨会
#### **(一)云经济分享**
亚马逊云科技的云经济服务旨在帮助客户在其云计算旅程的每个阶段确定和量化价值,并提供云价值专业知识、成功的用户案例以及云财务管理的最佳实践和方法。
在接触云经济的分享环节后,奇瑞捷豹路虎项目团队逐渐认识和理解到,通过亚马逊云科技迁移,他们将在以下四个维度以及各个维度的量化比重中看到经济效益:
1. IT 基础设施成本减少
2. 风险缓解 – 用户生产力
3. IT 人员的生产力
4. 业务生产力
![image.png](https://dev-media.amazoncloud.cn/a87680582545407d91e87c4045bd105f_image.png "image.png")
图 2 云经济效益分布图
具体的云经济框架又分成:
1. 成本节约:基础设施成本的节约
2. 工作人员的生产力:各职能任务效率的提高
3. 业务弹性:改善服务水平等级和减少计划外的中断
4. 业务灵活性:更快地部署新功能/应用,减少错误
亚马逊云科技的云经济分析结果展示,初期采用云服务可以立即减少 IT 基础设施的显性成本,但这仅仅是益处的冰山一角。更为关键的是,云服务能显著提升各个层面的生产力,这才是云服务真正重要且有价值的部分。
#### **(二)奇瑞捷豹路虎 SAP 云之旅研讨会**
在 SAP 云之旅研讨会上,对云的基本概念、云的工作模式、云的安全、云的计费方式进行深入的介绍,也对 SAP 的业务架构、应用架构、业务连续性和运维进行深入的研讨。
在安全话题的探讨过程中,奇瑞捷豹路虎信息安全团队同第三方安全咨询公司以及亚马逊云科技共同开展了全范围安全测试与评估,包含云安全架构和基线检查,主机安全漏洞扫描,云身份和访问控制风险评估,应用渗透测试,数据保密性、可用性、完整性验证。
另外,在这过程中,“**合理精简(Right Sizing)**”也是这其中的重点部分。
**1、认识合理精简**
首先,什么是“合理精简”?“合理精简(Right Sizing)”是指以最低的成本将最适合的资源类型和规格与工作负载的性能和容量要求相匹配的过程。它也是查看已部署的资源类型和规格并确定在不影响性能、容量或其他要求的情况下替换或缩小资源规格的过程,这也将进一步降低成本。
合理精简(Right Sizing)是优化云使用成本的一个关键机制,但在企业首次迁移到云上时,往往被忽视。很多用户使用 lift and shift,不做任何合理精简的动作,通过直接迁移的方式,将他们的业务系统迁移到云端,并期望以后再合理精简。由于迁移的速度和性能要求往往优先于成本,这导致了资源规格过大,大量资源未被使用,从而造成浪费。
**2、使用合理精简和分析**
起初在亚马逊云科技同事根据原有配置规格进行五年费用预算时,基于云资源的费用是基于传统硬件费用的 2.6 倍,这远超大家的经验和认识。因此,双方一同开展了基于实际应用状况的分析。
合理精简流程图展示了一个多阶段的复杂过程,包括收集来自不同来源的原始统计数据、进行数据分析、分类工作负载,并最终总结结论的过程。
![image.png](https://dev-media.amazoncloud.cn/25fe96cb5dc34c42a960d9575da66361_image.png "image.png")
图 3 合理精简流程图
在原始统计数据收集的阶段,奇瑞捷豹路虎团队采集了 SAP 生产环境中各方面的数据,其中包括操作系统层面(CPU、内存),数据库(Oracle),应用(SAP)的监控数据。
**(1)操作系统层面**
以 ERP 主机为示例,因为无论主机的硬件配置,还是数据库事务量,它都是最高的。从如下的监控周期内的数据可以分析出,CPU 的平均使用率不到 20%(实际值 18.3%),一直处于空闲状态。内存的使用率也是不到 25%(实际值 22.3%),实际使用量为 30GB 左右。
![image.png](https://dev-media.amazoncloud.cn/5d2aaa04908e42b2ae7fe274bc3de9eb_image.png "image.png")
图 4 ERP 主机 CPU 使用率(25天)
![image.png](https://dev-media.amazoncloud.cn/d7aa33100e7b4a80b696c2f5207e0164_image.png "image.png")
图 5 ERP 主机内存使用率(25天)
**(2)数据库层面**
通过 ORACLE AWR 报告中的 Host CPU 和 Instance CPU,奇瑞捷豹路虎团队可以看到此主机,数据库事务在两个 AWR 采样间隔内 CPU 开销是 6.2%,即使在主机 CPU %BUSY 中的占比也只有 41.3%。另外,再结合 DB Time 和 DB CPU 以及 %WIO 和 Top 5 Timed Foregroud Events,数据库层面有直接 IO 性能问题,潜在的未优化的 SQL 语句的问题。
同时,ORACLE 数据库实例启动时,需要分配共享内存,启动后台进程。ORACLE 数据库所使用的内存涉及两个方面:SGA 和 PGA。这里能看到 SGA 和 PGA 之和大概在 32GB 左右。这个和操作系统层面监控获得信息基本一致。
![image.png](https://dev-media.amazoncloud.cn/a13b255a56864545b3328fccf0e85617_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/678dc6c691ab4fd89120da6a26a9d3f4_image.png "image.png")
图 6 ERP Oracle 数据库的 AWR 报告
**(3)应用层面**
根据 SAP EarlyWatch 报告中的 Performance Indicators,可以了解到承载 SAP 系统业务模块的硬件资源使用率都是在 0%。
![image.png](https://dev-media.amazoncloud.cn/fd90e5695b4d49b5a5377ddecf2053c2_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/68e1b5eea9af43b8ad5710fafbee9ae1_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/aaaa242c23e64d8189d86f413985c569_image.png "image.png")
图 7 SAP EarlyWatch 报告
**(4)SAPS**
SAP Application Performance Standard(SAPS)是一个独立于硬件的测量单位,描述了 SAP 环境中系统配置的性能。在 CPU 和内存大小不变的情况下,更高的 SAPS 值表示更好的性能。
结合如下链接:
https://www.sap.com/dmc/exp/2018-benchmark-directory/#/sd?trk=cndc-detail
![image.png](https://dev-media.amazoncloud.cn/d780960cfea84a70942f93d09b7c26a6_image.png "image.png")
图 8 SAP 官方 SAPS 值参考
结合如下链接:
https://docs.aws.amazon.com/sap/latest/general/sap-hana-aws-ec2.html?trk=cndc-detail
![image.png](https://dev-media.amazoncloud.cn/2bc6955ad65548318a140cb6dfca1cbf_image.png "image.png")
图 9 亚马逊云科技官方 SAPS 值参考
可以知道奇瑞捷豹路虎传统硬件近似的 SAPS 值和被 SAP 官方认证的 [Amazon EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 机型的 SAPS 值。
奇瑞捷豹路虎团队收集的支持 SAP 系统运行的数据库小型机相关硬件信息,经过推算 SAPS 值应该是小于 5850。而根据如上的链接,目前亚马逊云科技发布的云主机在同等配置(vCPU 数量和内存大小)的情况下的 SAPS 值远大于这个 5850 值的。
**3、获得合理精简**
结合“**使用合理精简和分析**”中获得信息,分析得出如果要支撑奇瑞捷豹路虎目前 SAP 的系统的工作负载,并以未来可见的业务增长速率,在云主机的选择上,远不需要选择和线下老的传统硬件主机同等配置(vCPU 数量和内存大小)的 EC2 机型。
亚马逊云科技提供的云主机–[EC2](https://aws.amazon.com/cn/ec2/?trk=cndc-detail) 提供了广泛的实例类型,优化以适应不同的用例。实例类型包含不同的 CPU、内存、存储和网络容量的组合,为用户提供了灵活性,可以选择适当的资源组合来满足应用程序的需求。每个实例类型都包括一个或多个实例大小,使用户可以根据目标工作负载的要求扩展实际使用的资源。
### **04 合理精简的收益**
经过**合理精简**后,获得如下收益:
- 最直接的收益:在之前计算五年费用预算时,从基于云资源的费用是基于传统硬件费用的 2.6 倍,变成基于云资源的费用比基于传统硬件费用还节省 7.1%;
- 正如之前云经济中提到的,IT 基础设施成本的减少只占经济效益的 5%,此处还未包括电力、空调、机房租赁等各种费用的减少;
- 同时在用户生产力、IT 人员的生产力和业务生产力上也有显著的提高;
- 经过以上过程后,使得奇瑞捷豹路虎团队充分地理解了合理确定规格的具体过程,同时也切实地回答了最开始的预算问题、配置问题和迁移问题。
### **05 总结**
本文主要介绍了奇瑞捷豹路虎 SAP 系统迁移上云的初期阶段所遭遇的主要挑战——如何确定和选择云上资源?
亚马逊云科技团队通过分享**云经济相关知识**,及组织**奇瑞捷豹路虎 SAP 云之旅**研讨会的方式,分析和厘清了 SAP 系统在实际生产环境中的资源使用状况,并通过对各种资源进行合理精简,团队成功确定了既满足业务需求又经济高效的云资源类型和规格,为后续顺利的迁移上云打下了坚实的理论基础。
在此过程中特别感谢亚马逊云科技专业服务团队-刘斐文,亚马逊云科技合作伙伴解决方案架构师-秦高翔的鼎力支持。
### **参考材料**
- https://www.amazonaws.cn/en/newsroom/2022/0927-Qirui/?trk=cndc-detail
- https://aws.amazon.com/aws-cost-management/aws-cost-optimization/right-sizing/?trk=cndc-detail
- https://docs.aws.amazon.com/cost-management/latest/userguide/ce-rightsizing.html?trk=cndc-detail
- https://www.wellarchitectedlabs.com/cost/100_labs/100_aws_resource_optimization/1_intro_right_sizing/?trk=cndc-detail
- https://aws.amazon.com/sap/?trk=cndc-detail
- https://docs.aws.amazon.com/sap/latest/general/welcome.html?trk=cndc-detail
- https://www.sap.com/dmc/exp/2014-09-02-hana-hardware/enEN/#/solutions?filters=v:deCertified;ve:23?trk=cndc-detail
- https://www.sap.com/dmc/exp/2018-benchmark-directory/#/sd?trk=cndc-detail
- https://docs.aws.amazon.com/sap/latest/general/sap-hana-aws-ec2.html?trk=cndc-detail
![开发者尾巴.gif](https://dev-media.amazoncloud.cn/663e45de2e564d94bacc6b71bdcdcef5_%E5%BC%80%E5%8F%91%E8%80%85%E5%B0%BE%E5%B7%B4.gif "开发者尾巴.gif")