Ampere Altra Max 提供可持续的高分辨率 H.265 编码

ARM
架构设计
0
0
{"value":"\n用于在更大、更高分辨率设备上播放的高清视频内容的增长,推动了对 H.265 等更高效视频编解码器的需求。虽然带宽效率是较旧的 H.264 编解码器的两倍,但 H.265 需要消耗更高的计算资源来提供这种效率。控制成本(例如,带宽使用)现在是视频开发人员提到的头号挑战[1],这使得 H.265 具有吸引力。但是,如果较低的带宽成本被较高的计算和电力成本所取代,视频开发人员相当于在原地踏步。他们需要的是一个解决方案,该解决方案可以提供 H.265 效率,而仅仅花费较少的计算和电力代价。本博客认为基于 Arm Neoverse 的 Ampere Altra Max 服务器正是视频开发人员编码 H.265 视频流所需的解决方案。\n\n### **背景介绍**\n在过去的几年里,由于更好的相机和更大、更高分辨率的设备,高分辨率视频内容的产生和消费都在稳步增长。与 H.264 等传统编解码器相比,H.265/HEVC、VP9 或 AV1 等更先进的编解码器在压缩更高分辨率内容方面的效率提升超过50%。最近的市场研究表明,这种增长转化为这些编解码器的使用量的显著增加,其中 H.265 处于领先的位置。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/cc06284fc6ef457ba97429ccf8e65980_image.png)\n图 1:Bitmovin 2021 关于生产领域使用的视频编解码器报告(2020 年与 2021)\n\nNetflix 和 Amazon Prime 等流媒体服务的流行也推动了对高分辨率视频内容的需求。吸引和留住客户只会增加这种需求。因此,视频上传和接收(带宽需求)以及视频转码和处理(计算需求)在视频处理平台中占据最大份额也就不足为奇了[2]。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/bd809ed0ba5b4781ab216d28c55607dc_image.png)\n图 2:2020 年按应用划分的视频处理平台市场份额\n\nH.265 的改进压缩带来了更高计算复杂度,这可能比 H.264 高出一个数量级(10 倍)。虽然基于云的编码的使用正在增长,但大多数视频编码仍然是一项预处理任务[1]。因此,H.265 编码增加的计算需求(资本支出成本)和功耗(运营成本)对大多数视频开发人员来说是一个挑战。因此,在性能更高、能效更高的服务器上进行编码是很重要的。\n\n技术媒体已经在 SPECrate®2017 Integer 等通用基准上验证了 Ampere Altra Max 相对于传统架构的性能和能效优势[3]。Ampere Altra Max 拥有128 个 Arm Neoverse N1 内核 @3.0Ghz,性能优于英特尔至强“Ice-Lake”和 AMD EPYC“Milan”CPU,后者的功耗(TDP)要高得多。在这个博客中,我们展示了 Ampere Altra Max 的这些性能和能效优势也扩展到了 H.265 等视频编码应用中。\n\n为了说明这一点,我们对 H.265 进行编码,并测量系统满载时的实际性能和功耗。我们介绍了开源 libx265 编码器最近的一些优化工作,以便在 64 位 Arm 体系结构上使用 Neon SIMD 引擎。这些优化使性能显著提升了 1.5 倍到 2.2 倍[4]。\n\n### **性能测试结果**\n我们在类似的基于 Arm 和 x86 的服务器上对 libx265 开源编解码器的最新快照([https://bitbucket.org/multicoreware/x265_git/wiki/Home](https://bitbucket.org/multicoreware/x265_git/wiki/Home))进行了基准测试。所有系统上的 x265 版本为 3.5+20-17839cc0d。配置部分显示了基于 Arm Neoverse N1 内核的 Ampere Altra Max 服务器和基于英特尔“Ice-Lake”和 AMD“Milan”架构的 x86 系统的系统详细信息。“配置”部分列出了输入视频。我们使用各种分辨率和编码预设来查看不同场景下性能的影响。\n\n### **性能比较–扩展到完整的套接字级别**\n为了测试完整的套接字性能,我们启动了与系统中虚拟核数量一样多的 H.265 编码任务,并测量每秒累积帧数(FPS)。我们在 Altra Max 和 AMD 7763 CPU 上运行 128 个任务,在 Xeon 8380 CPU 上运行 80 个任务。我们观察到,Altra Max 的全插槽性能比 AMD EPYC 7763 好 10% 到 35%,在各种视频分辨率和编码预设方面比 Intel Xeon 8380 好 2 倍多。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/2fb321668fcc421aa5fb7190cd4b5952_image.png)\n图 3:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 相对性能\n\n值得注意的是,基于 SMT 架构的 x86 CPU 与 Altra Max 的单线程核心架构之间的性能扩展差异。使用 Altra Max,性能与系统中的编码任务数呈线性扩展。在 AMD EPYC 7763 和 Intel Xeon 8380 上,性能扩展是非线性的,一旦使用虚拟内核,性能就会显著下降。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/d61c082568ec4b35bc583ef05ffaf2cd_image.png)\n图 4:x265 按作业数进行的性能扩展:Ampere Altra Max\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/97e107739ed64b5f8edd38ca5c88e17b_image.png)\n图 5:x265 按作业数进行的性能扩展:AMD EPYC 7763\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/8af9dabfead34f468faa732d0428f538_image.png)\n图 6:x265 按作业数进行的性能扩展:英特尔至强 8380\n\n### **耗电比较–扩展到完整的套接字级别**\n平台的功率效率是通过其在特定功率预算内编码的帧数来衡量的。为了衡量这一点,我们在所有平台上完全加载了一个套接字,最大数量的 H.265 编码任务。然后测量其的功耗,并计算每瓦 FPS。\n\n我们发现,在不同的视频分辨率和编码预设下,Altra Max 的平均效率比 AMD EPYC 7763 高 40-70%,比 Intel Xeon 8380 高出3倍。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/377ef4d96955421b981f0a926ba2a07a_image.png)\n图 7:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 相对每瓦性能\n\n### **结论**\n随着高分辨率流媒体的增长,云中的视频流应用需要使用更高压缩率的编解码器,如 H.265。这种压缩带来了更高的计算成本和更高的功耗。在系统层面,基于 Arm Neoverse 的 Ampere Altra Max 服务器提供了更好的可扩展性和高达 2 倍的性能,同时与 Intel“Ice-Lake”服务器平台相比,工作负载能效高达 3 倍。Altra Max 服务器的性能比 AMD “Milan”服务器高 35%,工作负载能效高 70%。最近针对 Arm 架构的 x265 优化开创了节能编码的新纪元,性能卓越,我们鼓励读者评估 Ampere Altra 和 Altra Max 系统的 x265 视频编码。\n\n最后,我们必须认识到,提高计算效率不是视频编码的挑战,而是一般的处理挑战。Arm Neoverse 等新架构和 Ampere Altra Max 等 cloud first CPU 设计有助于减少计算对 on-prem 和云碳端排放的影响。有关 Neoverse 和 Ampere Altra Max 的可持续性优势的更多信息,我们鼓励您阅读我们的 2022 年地球日博客([https://www.arm.com/blogs/blueprint/earth-day-cloud](https://www.arm.com/blogs/blueprint/earth-day-cloud))。\n\n![image.png](https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/21eef08a57fb4da9b52114664f5f308d_image.png)\n\n**输入视频文件:**\n\n- [https://link.segmentfault.com/?enc=QUf46CpPoIWk4yXmRmnlNA%3D%3D.YBGMIP20jOXobuY4DCx%2FvNimS7F9ZiMq%2FibIglWeaRFCsRwsdk8vutQTJe2LmIo807%2B9lhXHA%2FbcZcLY8p%2BwZWDFh1yO0b%2FprYmoI7l29B8CqHhww2tIYVDcUCniKaoT](https://link.segmentfault.com/?enc=QUf46CpPoIWk4yXmRmnlNA%3D%3D.YBGMIP20jOXobuY4DCx%2FvNimS7F9ZiMq%2FibIglWeaRFCsRwsdk8vutQTJe2LmIo807%2B9lhXHA%2FbcZcLY8p%2BwZWDFh1yO0b%2FprYmoI7l29B8CqHhww2tIYVDcUCniKaoT)\n- [https://link.segmentfault.com/?enc=N3F%2Bgx05h57XWEWSxuXCpg%3D%3D.pKYnIt6394I2Ae3LYzbRdHhyoIu7%2BUBd0%2Bh3%2FCNopNg2fS5hNJL96Lfb4D1pR0aw7ePjYcXZA2iBXgts03Jb4VawtkAV7BDHH%2BCRcwk%2FQ1ttFX69fcjc%2B1Zk%2BbdmQrlv](https://link.segmentfault.com/?enc=N3F%2Bgx05h57XWEWSxuXCpg%3D%3D.pKYnIt6394I2Ae3LYzbRdHhyoIu7%2BUBd0%2Bh3%2FCNopNg2fS5hNJL96Lfb4D1pR0aw7ePjYcXZA2iBXgts03Jb4VawtkAV7BDHH%2BCRcwk%2FQ1ttFX69fcjc%2B1Zk%2BbdmQrlv)\n- [https://link.segmentfault.com/?enc=5%2FDV%2BclK7LYlvOlDrRZ6Gg%3D%3D.B254H0Kp5gMjt1rIvesVqniOK9hUOTfWj%2FiBsPEBCQz9L5FpEBku18MZ2TizjTEMMZcPzBPS6TY4mi9yL%2FbqnlQdqlPgZj8%2F%2Fw0DK46YhYd62ryLxF%2BLnMdzpX9zhJtS](https://link.segmentfault.com/?enc=5%2FDV%2BclK7LYlvOlDrRZ6Gg%3D%3D.B254H0Kp5gMjt1rIvesVqniOK9hUOTfWj%2FiBsPEBCQz9L5FpEBku18MZ2TizjTEMMZcPzBPS6TY4mi9yL%2FbqnlQdqlPgZj8%2F%2Fw0DK46YhYd62ryLxF%2BLnMdzpX9zhJtS)\n\n**参考资料:**\n\n- Bitmovin Video Developer Report 2021 [https://go.bitmovin.com/video-developer-report-2021](https://go.bitmovin.com/video-developer-report-2021)\n- Research and Markets Global Video Processing Platform Market report 2021\n- [https://www.anandtech.com/show/16979/the-ampere-altra-max-review-pushing-it-to-128-cores-per-socket/5](https://www.anandtech.com/show/16979/the-ampere-altra-max-review-pushing-it-to-128-cores-per-socket/5)\n- Save on H.265 encoding using Amazon Web Services Graviton2\n\n\n作者:Ravi Malhotra 2022年5月3日\n","render":"<p>用于在更大、更高分辨率设备上播放的高清视频内容的增长,推动了对 H.265 等更高效视频编解码器的需求。虽然带宽效率是较旧的 H.264 编解码器的两倍,但 H.265 需要消耗更高的计算资源来提供这种效率。控制成本(例如,带宽使用)现在是视频开发人员提到的头号挑战[1],这使得 H.265 具有吸引力。但是,如果较低的带宽成本被较高的计算和电力成本所取代,视频开发人员相当于在原地踏步。他们需要的是一个解决方案,该解决方案可以提供 H.265 效率,而仅仅花费较少的计算和电力代价。本博客认为基于 Arm Neoverse 的 Ampere Altra Max 服务器正是视频开发人员编码 H.265 视频流所需的解决方案。</p>\n<h3><a id=\\"_3\\"></a><strong>背景介绍</strong></h3>\\n<p>在过去的几年里,由于更好的相机和更大、更高分辨率的设备,高分辨率视频内容的产生和消费都在稳步增长。与 H.264 等传统编解码器相比,H.265/HEVC、VP9 或 AV1 等更先进的编解码器在压缩更高分辨率内容方面的效率提升超过50%。最近的市场研究表明,这种增长转化为这些编解码器的使用量的显著增加,其中 H.265 处于领先的位置。</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/cc06284fc6ef457ba97429ccf8e65980_image.png\\" alt=\\"image.png\\" /><br />\\n图 1:Bitmovin 2021 关于生产领域使用的视频编解码器报告(2020 年与 2021)</p>\n<p>Netflix 和 Amazon Prime 等流媒体服务的流行也推动了对高分辨率视频内容的需求。吸引和留住客户只会增加这种需求。因此,视频上传和接收(带宽需求)以及视频转码和处理(计算需求)在视频处理平台中占据最大份额也就不足为奇了[2]。</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/bd809ed0ba5b4781ab216d28c55607dc_image.png\\" alt=\\"image.png\\" /><br />\\n图 2:2020 年按应用划分的视频处理平台市场份额</p>\n<p>H.265 的改进压缩带来了更高计算复杂度,这可能比 H.264 高出一个数量级(10 倍)。虽然基于云的编码的使用正在增长,但大多数视频编码仍然是一项预处理任务[1]。因此,H.265 编码增加的计算需求(资本支出成本)和功耗(运营成本)对大多数视频开发人员来说是一个挑战。因此,在性能更高、能效更高的服务器上进行编码是很重要的。</p>\n<p>技术媒体已经在 SPECrate®2017 Integer 等通用基准上验证了 Ampere Altra Max 相对于传统架构的性能和能效优势[3]。Ampere Altra Max 拥有128 个 Arm Neoverse N1 内核 @3.0Ghz,性能优于英特尔至强“Ice-Lake”和 AMD EPYC“Milan”CPU,后者的功耗(TDP)要高得多。在这个博客中,我们展示了 Ampere Altra Max 的这些性能和能效优势也扩展到了 H.265 等视频编码应用中。</p>\n<p>为了说明这一点,我们对 H.265 进行编码,并测量系统满载时的实际性能和功耗。我们介绍了开源 libx265 编码器最近的一些优化工作,以便在 64 位 Arm 体系结构上使用 Neon SIMD 引擎。这些优化使性能显著提升了 1.5 倍到 2.2 倍[4]。</p>\n<h3><a id=\\"_20\\"></a><strong>性能测试结果</strong></h3>\\n<p>我们在类似的基于 Arm 和 x86 的服务器上对 libx265 开源编解码器的最新快照(<a href=\\"https://bitbucket.org/multicoreware/x265_git/wiki/Home\\" target=\\"_blank\\">https://bitbucket.org/multicoreware/x265_git/wiki/Home</a>)进行了基准测试。所有系统上的 x265 版本为 3.5+20-17839cc0d。配置部分显示了基于 Arm Neoverse N1 内核的 Ampere Altra Max 服务器和基于英特尔“Ice-Lake”和 AMD“Milan”架构的 x86 系统的系统详细信息。“配置”部分列出了输入视频。我们使用各种分辨率和编码预设来查看不同场景下性能的影响。</p>\\n<h3><a id=\\"_23\\"></a><strong>性能比较–扩展到完整的套接字级别</strong></h3>\\n<p>为了测试完整的套接字性能,我们启动了与系统中虚拟核数量一样多的 H.265 编码任务,并测量每秒累积帧数(FPS)。我们在 Altra Max 和 AMD 7763 CPU 上运行 128 个任务,在 Xeon 8380 CPU 上运行 80 个任务。我们观察到,Altra Max 的全插槽性能比 AMD EPYC 7763 好 10% 到 35%,在各种视频分辨率和编码预设方面比 Intel Xeon 8380 好 2 倍多。</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/2fb321668fcc421aa5fb7190cd4b5952_image.png\\" alt=\\"image.png\\" /><br />\\n图 3:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 相对性能</p>\n<p>值得注意的是,基于 SMT 架构的 x86 CPU 与 Altra Max 的单线程核心架构之间的性能扩展差异。使用 Altra Max,性能与系统中的编码任务数呈线性扩展。在 AMD EPYC 7763 和 Intel Xeon 8380 上,性能扩展是非线性的,一旦使用虚拟内核,性能就会显著下降。</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/d61c082568ec4b35bc583ef05ffaf2cd_image.png\\" alt=\\"image.png\\" /><br />\\n图 4:x265 按作业数进行的性能扩展:Ampere Altra Max</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/97e107739ed64b5f8edd38ca5c88e17b_image.png\\" alt=\\"image.png\\" /><br />\\n图 5:x265 按作业数进行的性能扩展:AMD EPYC 7763</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/8af9dabfead34f468faa732d0428f538_image.png\\" alt=\\"image.png\\" /><br />\\n图 6:x265 按作业数进行的性能扩展:英特尔至强 8380</p>\n<h3><a id=\\"_40\\"></a><strong>耗电比较–扩展到完整的套接字级别</strong></h3>\\n<p>平台的功率效率是通过其在特定功率预算内编码的帧数来衡量的。为了衡量这一点,我们在所有平台上完全加载了一个套接字,最大数量的 H.265 编码任务。然后测量其的功耗,并计算每瓦 FPS。</p>\n<p>我们发现,在不同的视频分辨率和编码预设下,Altra Max 的平均效率比 AMD EPYC 7763 高 40-70%,比 Intel Xeon 8380 高出3倍。</p>\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/377ef4d96955421b981f0a926ba2a07a_image.png\\" alt=\\"image.png\\" /><br />\\n图 7:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 相对每瓦性能</p>\n<h3><a id=\\"_48\\"></a><strong>结论</strong></h3>\\n<p>随着高分辨率流媒体的增长,云中的视频流应用需要使用更高压缩率的编解码器,如 H.265。这种压缩带来了更高的计算成本和更高的功耗。在系统层面,基于 Arm Neoverse 的 Ampere Altra Max 服务器提供了更好的可扩展性和高达 2 倍的性能,同时与 Intel“Ice-Lake”服务器平台相比,工作负载能效高达 3 倍。Altra Max 服务器的性能比 AMD “Milan”服务器高 35%,工作负载能效高 70%。最近针对 Arm 架构的 x265 优化开创了节能编码的新纪元,性能卓越,我们鼓励读者评估 Ampere Altra 和 Altra Max 系统的 x265 视频编码。</p>\n<p>最后,我们必须认识到,提高计算效率不是视频编码的挑战,而是一般的处理挑战。Arm Neoverse 等新架构和 Ampere Altra Max 等 cloud first CPU 设计有助于减少计算对 on-prem 和云碳端排放的影响。有关 Neoverse 和 Ampere Altra Max 的可持续性优势的更多信息,我们鼓励您阅读我们的 2022 年地球日博客(<a href=\\"https://www.arm.com/blogs/blueprint/earth-day-cloud\\" target=\\"_blank\\">https://www.arm.com/blogs/blueprint/earth-day-cloud</a>)。</p>\\n<p><img src=\\"https://awsdevweb.s3.cn-north-1.amazonaws.com.cn/21eef08a57fb4da9b52114664f5f308d_image.png\\" alt=\\"image.png\\" /></p>\n<p><strong>输入视频文件:</strong></p>\\n<ul>\\n<li><a href=\\"https://link.segmentfault.com/?enc=QUf46CpPoIWk4yXmRmnlNA%3D%3D.YBGMIP20jOXobuY4DCx%2FvNimS7F9ZiMq%2FibIglWeaRFCsRwsdk8vutQTJe2LmIo807%2B9lhXHA%2FbcZcLY8p%2BwZWDFh1yO0b%2FprYmoI7l29B8CqHhww2tIYVDcUCniKaoT\\" target=\\"_blank\\">https://link.segmentfault.com/?enc=QUf46CpPoIWk4yXmRmnlNA%3D%3D.YBGMIP20jOXobuY4DCx%2FvNimS7F9ZiMq%2FibIglWeaRFCsRwsdk8vutQTJe2LmIo807%2B9lhXHA%2FbcZcLY8p%2BwZWDFh1yO0b%2FprYmoI7l29B8CqHhww2tIYVDcUCniKaoT</a></li>\\n<li><a href=\\"https://link.segmentfault.com/?enc=N3F%2Bgx05h57XWEWSxuXCpg%3D%3D.pKYnIt6394I2Ae3LYzbRdHhyoIu7%2BUBd0%2Bh3%2FCNopNg2fS5hNJL96Lfb4D1pR0aw7ePjYcXZA2iBXgts03Jb4VawtkAV7BDHH%2BCRcwk%2FQ1ttFX69fcjc%2B1Zk%2BbdmQrlv\\" target=\\"_blank\\">https://link.segmentfault.com/?enc=N3F%2Bgx05h57XWEWSxuXCpg%3D%3D.pKYnIt6394I2Ae3LYzbRdHhyoIu7%2BUBd0%2Bh3%2FCNopNg2fS5hNJL96Lfb4D1pR0aw7ePjYcXZA2iBXgts03Jb4VawtkAV7BDHH%2BCRcwk%2FQ1ttFX69fcjc%2B1Zk%2BbdmQrlv</a></li>\\n<li><a href=\\"https://link.segmentfault.com/?enc=5%2FDV%2BclK7LYlvOlDrRZ6Gg%3D%3D.B254H0Kp5gMjt1rIvesVqniOK9hUOTfWj%2FiBsPEBCQz9L5FpEBku18MZ2TizjTEMMZcPzBPS6TY4mi9yL%2FbqnlQdqlPgZj8%2F%2Fw0DK46YhYd62ryLxF%2BLnMdzpX9zhJtS\\" target=\\"_blank\\">https://link.segmentfault.com/?enc=5%2FDV%2BclK7LYlvOlDrRZ6Gg%3D%3D.B254H0Kp5gMjt1rIvesVqniOK9hUOTfWj%2FiBsPEBCQz9L5FpEBku18MZ2TizjTEMMZcPzBPS6TY4mi9yL%2FbqnlQdqlPgZj8%2F%2Fw0DK46YhYd62ryLxF%2BLnMdzpX9zhJtS</a></li>\\n</ul>\n<p><strong>参考资料:</strong></p>\\n<ul>\\n<li>Bitmovin Video Developer Report 2021 <a href=\\"https://go.bitmovin.com/video-developer-report-2021\\" target=\\"_blank\\">https://go.bitmovin.com/video-developer-report-2021</a></li>\\n<li>Research and Markets Global Video Processing Platform Market report 2021</li>\n<li><a href=\\"https://www.anandtech.com/show/16979/the-ampere-altra-max-review-pushing-it-to-128-cores-per-socket/5\\" target=\\"_blank\\">https://www.anandtech.com/show/16979/the-ampere-altra-max-review-pushing-it-to-128-cores-per-socket/5</a></li>\\n<li>Save on H.265 encoding using Amazon Web Services Graviton2</li>\n</ul>\\n<p>作者:Ravi Malhotra 2022年5月3日</p>\n"}
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭