Prime Video 如何使用机器学习来确保视频质量

0
0
{"value":"### **声明:**\n\n声明:\n本文转自Amazon Science网站,文章翻译由开发者社区提供;\n点击下方链接,查看英文原文:[How Prime Video uses machine learning to ensure video quality - Amazon Science](https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality) 流媒体视频可能会受到录制,编码,打包或传输过程中引入的缺陷的影响,因此大多数订阅视频服务(例如Amazon Prime Video)都会不断评估其流式传输的内容的质量。\n\n手动内容审查——被称为眼睛测试——不能很好地进行扩展,并且它带来了自己的挑战,例如审查者对质量的看法存在差异。在行业中更常见的是使用数字信号处理来检测视频信号中经常与缺陷相关的异常。\n\n![下载.gif](https://dev-media.amazoncloud.cn/1ff0369203b04eabacef4a7c2b6ba6b5_%E4%B8%8B%E8%BD%BD.gif)\n\n*Amazon Prime Video 的块损坏检测器的初始版本使用残差神经网络生成指示特定图像位置损坏概率的映射,对该映射进行二值化,并计算损坏区域与总图像区域之间的比率。*\n\n三年前,Prime Video 的视频质量分析 (VQA) 小组开始使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来识别从游戏机、电视和机顶盒等设备捕获的内容中的缺陷,以验证新的应用程序版本或离线更改编码配置文件。 最近,我们一直在将相同的技术应用于诸如对我们的数千个频道和直播活动进行实时质量监控以及大规模分析新目录内容等问题。\n\n我们在 VQA 的团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题,例如块状帧、意外黑帧和音频噪声。 这使我们能够处理数十万个直播活动和目录项目规模的视频。\n我们面临的一个有趣挑战是,由于 Prime Video 产品中视听缺陷的发生率极低,训练数据中缺乏正面案例。 我们使用模拟原始内容缺陷的数据集来应对这一挑战。 在使用此数据集开发检测器后,我们通过对一组实际缺陷进行测试来验证检测器是否可以转移到生产内容中。\n\n### **我们如何将音频点击引入洁净音频的示例**\n\n洁净音频的波形。\n\n洁净音频\n\n添加了点击的音频波形。\n\n人工点击导致音频受损\n\n洁净音频的频谱图。\n\n添加了点击的音频频谱图。\n\n我们为 18 种不同类型的缺陷构建了检测器,包括视频冻结和卡顿、视频撕裂、音频和视频之间的同步问题以及字幕质量问题。 下面,我们仔细研究三个缺陷示例:块损坏、音频伪影和视听同步问题。\n\n### **块损坏**\n\n使用数字信号处理进行质量分析的一个缺点是难以区分某些类型的内容和有缺陷的内容。 例如,对于信号处理器来说,人群场景或高运动场景可能看起来像块损坏的场景,其中传输受损会导致帧内的像素块发生位移或导致像素块全部采用相同的颜色值。\n块损坏的示例\n\n<video src=\\"https://dev-media.amazoncloud.cn/1e251605385840a6b470a3716dbf4e0e_astro-navigation-video.mp4\\" class=\\"manvaVedio\\" controls=\\"controls\\" style=\\"width:160px;height:160px\\"></video>\n\n为了检测块损坏,我们使用了残差神经网络,该网络旨在使高层明确纠正下层遗漏的错误(残差)。 我们将 [ResNet18](https://arxiv.org/pdf/1512.03385.pdf) 网络的最后一层替换为 1x1 卷积(网络图中的 conv6)。\n\n该层的输出是一个二维图,其中每个元素是特定图像区域中块损坏的概率。 该二维图取决于输入图像的大小。 在网络图中,一个 224 x 224 x 3 的图像传递到网络,输出是一个 7 x 7 的映射。 在下面的示例中,我们将高清图像传递给网络,生成的映射为 34 x 60 像素。\n\n在该工具的初始版本中,我们将映射二值化并计算损坏区域比率为 corruptionArea = areaPositive/totalArea。 如果这个比率超过了某个阈值(0.07 证明效果很好),那么我们将帧标记为有块损坏。 (见上面的动画。)\n\n然而,在该工具的当前版本中,我们将决策函数移动到模型中,因此它是与特征提取一起学习的。\n\n\n![image.png](https://dev-media.amazoncloud.cn/d524d78088e14285aa7bdd54957a0b59_image.png)\n\n块损坏检测器的架构。\n\n### **音频伪影检测**\n\n音频伪影”是音频信号中不需要的声音,可能通过录制过程或数据压缩引入。在后一种情况下,这是损坏块的音频等效项。然而,有时,出于创造性的原因,也会引入人工制品。\n\n\"为了检测视频中的音频伪影,我们使用无参考模型,这意味着在训练期间,它无法访问洁净的音频作为比较标准。 该模型基于预训练的音频神经网络,将一秒钟的音频片段分类为无缺陷、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。\n\n目前,该模型在我们专有的模拟数据集上达到了 0.986 的平衡精度。 有关该模型的更多信息,请参阅我们在今年的 IEEE [计算机视觉应用冬季会议](https://www.amazon.science/conferences-and-events/amazon-wacv-2021)上发表的[论文](https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks)《使用预训练的音频神经网络检测音频伪像的无参考模型(A no-reference model for detection audio artifacts using pretrained audio neural networks)》带有失真音频的视频示例\n\n<video src=\\"https://dev-media.amazoncloud.cn/6dd5aa30013e423da39bcd0c1cb47b3e_astro-navigation-video.mp4\\" class=\\"manvaVedio\\" controls=\\"controls\\" style=\\"width:160px;height:160px\\"></video>\n\n### **音视频同步检测**\n\n当音频与视频不一致时,另一个常见的质量问题是 AV 同步或唇形同步缺陷。 广播、接收和播放过程中的问题可能会使音频和视频不同步。\n\n为了检测唇形同步缺陷,我们基于牛津大学的 [SyncNet](https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf) 架构构建了一个检测器——我们称之为 LipSync。\n\nLipSync 管道的输入是一个四秒的视频片段。 它传递给镜头检测模型,该模型识别镜头边界; 人脸检测模型,用于识别每一帧中的人脸; 以及人脸跟踪模型,该模型将连续帧中的人脸识别为属于同一个人。\n\n![image.png](https://dev-media.amazoncloud.cn/2d94e2631b624ca4a163ecfdc8c1a0a4_image.png)\n\n*提取面部轨迹的预处理管道——以单个面部为中心的四秒剪辑。*\n\n人脸跟踪模型的输出(称为人脸轨迹)和相关音频然后传递到 SyncNet 模型,该模型在人脸轨迹上聚合以确定剪辑是否同步、不同步或不确定,这意味着有要么没有检测到面部/面部轨迹,要么有相同数量的同步和不同步预测。\n\n### **未来的工作**\n\n这些是我们武器库中精选的一些检测器。 2022 年,我们将继续致力于完善和改进我们的算法。 在正在进行的工作中,我们正在使用主动学习(通过算法选择特别有用的训练示例)来不断地重新训练我们部署的模型。\n为了生成合成数据集,我们正在研究 [EditGan](https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf),这是一种新方法,可以更精确地控制生成对抗网络 (GAN) 的输出。 我们还使用我们的自定义Amazon 云原生应用程序和 SageMaker 实施来扩展我们的缺陷检测器,监控所有直播事件和视频频道。\n\n### **文章作者: [Sathya Balakrishnan & Ihsan Ozcelik](https://www.amazon.science/author/sathya-balakrishnan)**\nSathya Balakrishnan 是 Amazon Prime Video 的软件开发经理。\nIhsan Ozcelik 是 Amazon Prime Video 的高级软件开发工程师。\n","render":"<h3><a id=\\"_0\\"></a><strong>声明:</strong></h3>\\n<p>声明:<br />\\n本文转自Amazon Science网站,文章翻译由开发者社区提供;<br />\\n点击下方链接,查看英文原文:<a href=\\"https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality\\" target=\\"_blank\\">How Prime Video uses machine learning to ensure video quality - Amazon Science</a> 流媒体视频可能会受到录制,编码,打包或传输过程中引入的缺陷的影响,因此大多数订阅视频服务(例如Amazon Prime Video)都会不断评估其流式传输的内容的质量。</p>\\n<p>手动内容审查——被称为眼睛测试——不能很好地进行扩展,并且它带来了自己的挑战,例如审查者对质量的看法存在差异。在行业中更常见的是使用数字信号处理来检测视频信号中经常与缺陷相关的异常。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/1ff0369203b04eabacef4a7c2b6ba6b5_%E4%B8%8B%E8%BD%BD.gif\\" alt=\\"下载.gif\\" /></p>\n<p><em>Amazon Prime Video 的块损坏检测器的初始版本使用残差神经网络生成指示特定图像位置损坏概率的映射,对该映射进行二值化,并计算损坏区域与总图像区域之间的比率。</em></p>\\n<p>三年前,Prime Video 的视频质量分析 (VQA) 小组开始使用机器学习来识别从游戏机、电视和机顶盒等设备捕获的内容中的缺陷,以验证新的应用程序版本或离线更改编码配置文件。 最近,我们一直在将相同的技术应用于诸如对我们的数千个频道和直播活动进行实时质量监控以及大规模分析新目录内容等问题。</p>\n<p>我们在 VQA 的团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题,例如块状帧、意外黑帧和音频噪声。 这使我们能够处理数十万个直播活动和目录项目规模的视频。<br />\\n我们面临的一个有趣挑战是,由于 Prime Video 产品中视听缺陷的发生率极低,训练数据中缺乏正面案例。 我们使用模拟原始内容缺陷的数据集来应对这一挑战。 在使用此数据集开发检测器后,我们通过对一组实际缺陷进行测试来验证检测器是否可以转移到生产内容中。</p>\n<h3><a id=\\"_17\\"></a><strong>我们如何将音频点击引入洁净音频的示例</strong></h3>\\n<p>洁净音频的波形。</p>\n<p>洁净音频</p>\n<p>添加了点击的音频波形。</p>\n<p>人工点击导致音频受损</p>\n<p>洁净音频的频谱图。</p>\n<p>添加了点击的音频频谱图。</p>\n<p>我们为 18 种不同类型的缺陷构建了检测器,包括视频冻结和卡顿、视频撕裂、音频和视频之间的同步问题以及字幕质量问题。 下面,我们仔细研究三个缺陷示例:块损坏、音频伪影和视听同步问题。</p>\n<h3><a id=\\"_33\\"></a><strong>块损坏</strong></h3>\\n<p>使用数字信号处理进行质量分析的一个缺点是难以区分某些类型的内容和有缺陷的内容。 例如,对于信号处理器来说,人群场景或高运动场景可能看起来像块损坏的场景,其中传输受损会导致帧内的像素块发生位移或导致像素块全部采用相同的颜色值。<br />\\n块损坏的示例</p>\n<p><video src=\\"https://dev-media.amazoncloud.cn/1e251605385840a6b470a3716dbf4e0e_astro-navigation-video.mp4\\" controls=\\"controls\\"></video></p>\\n<p>为了检测块损坏,我们使用了残差神经网络,该网络旨在使高层明确纠正下层遗漏的错误(残差)。 我们将 <a href=\\"https://arxiv.org/pdf/1512.03385.pdf\\" target=\\"_blank\\">ResNet18</a> 网络的最后一层替换为 1x1 卷积(网络图中的 conv6)。</p>\\n<p>该层的输出是一个二维图,其中每个元素是特定图像区域中块损坏的概率。 该二维图取决于输入图像的大小。 在网络图中,一个 224 x 224 x 3 的图像传递到网络,输出是一个 7 x 7 的映射。 在下面的示例中,我们将高清图像传递给网络,生成的映射为 34 x 60 像素。</p>\n<p>在该工具的初始版本中,我们将映射二值化并计算损坏区域比率为 corruptionArea = areaPositive/totalArea。 如果这个比率超过了某个阈值(0.07 证明效果很好),那么我们将帧标记为有块损坏。 (见上面的动画。)</p>\n<p>然而,在该工具的当前版本中,我们将决策函数移动到模型中,因此它是与特征提取一起学习的。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/d524d78088e14285aa7bdd54957a0b59_image.png\\" alt=\\"image.png\\" /></p>\n<p>块损坏检测器的架构。</p>\n<h3><a id=\\"_53\\"></a><strong>音频伪影检测</strong></h3>\\n<p>音频伪影”是音频信号中不需要的声音,可能通过录制过程或数据压缩引入。在后一种情况下,这是损坏块的音频等效项。然而,有时,出于创造性的原因,也会引入人工制品。</p>\n<p>&quot;为了检测视频中的音频伪影,我们使用无参考模型,这意味着在训练期间,它无法访问洁净的音频作为比较标准。 该模型基于预训练的音频神经网络,将一秒钟的音频片段分类为无缺陷、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。</p>\n<p>目前,该模型在我们专有的模拟数据集上达到了 0.986 的平衡精度。 有关该模型的更多信息,请参阅我们在今年的 IEEE <a href=\\"https://www.amazon.science/conferences-and-events/amazon-wacv-2021\\" target=\\"_blank\\">计算机视觉应用冬季会议</a>上发表的<a href=\\"https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks\\" target=\\"_blank\\">论文</a>《使用预训练的音频神经网络检测音频伪像的无参考模型(A no-reference model for detection audio artifacts using pretrained audio neural networks)》带有失真音频的视频示例</p>\\n<p><video src=\\"https://dev-media.amazoncloud.cn/6dd5aa30013e423da39bcd0c1cb47b3e_astro-navigation-video.mp4\\" controls=\\"controls\\"></video></p>\\n<h3><a id=\\"_63\\"></a><strong>音视频同步检测</strong></h3>\\n<p>当音频与视频不一致时,另一个常见的质量问题是 AV 同步或唇形同步缺陷。 广播、接收和播放过程中的问题可能会使音频和视频不同步。</p>\n<p>为了检测唇形同步缺陷,我们基于牛津大学的 <a href=\\"https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf\\" target=\\"_blank\\">SyncNet</a> 架构构建了一个检测器——我们称之为 LipSync。</p>\\n<p>LipSync 管道的输入是一个四秒的视频片段。 它传递给镜头检测模型,该模型识别镜头边界; 人脸检测模型,用于识别每一帧中的人脸; 以及人脸跟踪模型,该模型将连续帧中的人脸识别为属于同一个人。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/2d94e2631b624ca4a163ecfdc8c1a0a4_image.png\\" alt=\\"image.png\\" /></p>\n<p><em>提取面部轨迹的预处理管道——以单个面部为中心的四秒剪辑。</em></p>\\n<p>人脸跟踪模型的输出(称为人脸轨迹)和相关音频然后传递到 SyncNet 模型,该模型在人脸轨迹上聚合以确定剪辑是否同步、不同步或不确定,这意味着有要么没有检测到面部/面部轨迹,要么有相同数量的同步和不同步预测。</p>\n<h3><a id=\\"_77\\"></a><strong>未来的工作</strong></h3>\\n<p>这些是我们武器库中精选的一些检测器。 2022 年,我们将继续致力于完善和改进我们的算法。 在正在进行的工作中,我们正在使用主动学习(通过算法选择特别有用的训练示例)来不断地重新训练我们部署的模型。<br />\\n为了生成合成数据集,我们正在研究 <a href=\\"https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf\\" target=\\"_blank\\">EditGan</a>,这是一种新方法,可以更精确地控制生成对抗网络 (GAN) 的输出。 我们还使用我们的自定义Amazon 云原生应用程序和 SageMaker 实施来扩展我们的缺陷检测器,监控所有直播事件和视频频道。</p>\\n<h3><a id=\\"_Sathya_Balakrishnan__Ihsan_Ozcelikhttpswwwamazonscienceauthorsathyabalakrishnan_82\\"></a><strong>文章作者: <a href=\\"https://www.amazon.science/author/sathya-balakrishnan\\" target=\\"_blank\\">Sathya Balakrishnan &amp; Ihsan Ozcelik</a></strong></h3>\n<p>Sathya Balakrishnan 是 Amazon Prime Video 的软件开发经理。<br />\\nIhsan Ozcelik 是 Amazon Prime Video 的高级软件开发工程师。</p>\n"}
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭