-->
获得免费通行证,加入我们的流媒体连接-2月19日至22日; 现在注册!

莫斯科国立大学博士. 德米特里·瓦托林谈编解码器和质量

文章特色图片

Dr. 他在Vatolin 是莫斯科国立大学图形和媒体实验室的负责人,该实验室是 视频质量测量工具(VQMT) 众包视频评级网站的开发者 Subjectify.us, 在过去的18年里,越来越多的编解码器和编码器比较报告的出版商. 因此,他对客观和主观指标以及编解码器质量有着无与伦比的见解. 我们请他就各种话题发表评论, 包括客观指标的准确性和VMAF黑客的状态. 我们很高兴发表他的回答.

流媒体:  您进行了大量基于参数的编解码器研究,其中许多都带有主观验证. 你对各种指标预测主观评分的准确性有何看法?

Vatolin: 主观质量的测量主要取决于数据集的大小和质量. 现在我们有3个,000序列压缩不同的编解码器与主观得分, 我们继续大量地建立这个数据集(感谢 subjectify.us). 在接下来的3个月中,我们计划发布两个基准测试 的性能.ai 分别为完全参考和无参考指标. 我们还收集具有不同工件和处理方法的序列(例如, 超分辨率), 我们也用它来评估指标.

我们预测,在未来几年中,超分辨率将与编解码器一起使用. 也, 这些工作使我们能够检查评估神经网络编解码器的实际方法, 已经开始出现(并且我们已经开始工作).  

对于那些对当前结果感兴趣的人,我将推荐我们的论文 客观视频质量指标在视频编解码器比较中的应用:选择最佳的进行主观质量估计 发表于 arxiv 8月. 例如,本文中有许多评估不同VMAF计算的图表(您可以看到VMAF NEG的质量明显较差) 图1 举个例子):

图1. 不同VMAF计算与主观评分的相关性. (点击查看全尺寸图片.)

在即将到来的基准测试中,我们计划合并许多和它们的计算选项. 有趣的是,我们可以注意到旧参数和VMAF NEG在AV1等新编解码器上的相关性大幅下降, 特别是相对于旧的编解码器, 你们可以在 图2, PSNR的预测精度在哪里, MS-SSIM, 和SSIM在AV1组显著下降,但在HEVC组保持稳定. 似乎随着AV1的广泛使用,PSNR和SSIM的使用将不再那么普遍.

图2. 随着AV1的出现,旧指标的预测准确性急剧下降. (点击查看全尺寸图片.)

流媒体: 对于无参考指标,情况发生了多大的改善, 以及它们在今天的实践中有多适用? 

Vatolin: 最近, 我们看到了NR指标的最大增长, 其中许多正在取代过去几年的经典FR指标. 的结果是 MDTVSFA 特别令人印象深刻图3).

图3.  完整和无参考的指标如何与主观评分相一致. (点击查看全尺寸图片.)

但是,您必须考虑到NR指标的稳定性较低. 我们还需要了解它们在不同编解码器下的行为, 例如, 它们的相关性对H会有多大的不同.264和VVC. 此外, 视频序列的选择, 预处理方法等因素非常重要. 我们计划在相应的基准测试中对该主题进行深入分析.

AVQT 是苹果的指标吗, presented in May 2021; TENCENT is a metric from Tencent Holdings; and VMAF, 大家都知道, 来自Netflix. 因为开发好的指标需要在数据集的大小和质量上进行认真的投资, 由于版权问题,这个数据集很难放入公共领域(我们知道几个大型数据集由于法律问题不得不从公共领域移除的案例)。.

流媒体: 你提到了你对超分辨率的研究. 什么是超分辨率,这项技术离日常使用还有多远? 

Vatolin:  超分辨率 是从低分辨率源生成高分辨率图像或视频的过程吗. 它已经在许多应用中使用.

我们与视频一起工作,我们对视频的实用SR方法最感兴趣. SR方法大致可分为“美容SR”(占95%)和“修复SR”.Google为视频实现了恢复性SR(使用基于块的运动估计和其他技术) 2018年,苹果在其Pixel 3手机上改进了拍照功能. 因为照片质量现在占智能手机价值的50%, 其他制造商现在也在做同样的事情.

实际上,智能手机中的视频SR已经出现了,但目前只针对单帧. 即使在今天,也存在一些限制,比如大量的电力使用和缺乏计算能力, 在不久的将来, 我们很可能会看到这些算法在整个视频上的充分应用. 此外,4K电视和2K+智能手机显示器的份额也在稳步增长. 

在过去的六个月里,我们发布了三个视频SR方法基准. SR用于摄像机视频 (处理噪音及伪影); 测量对SR+编解码器 (例如,SR与H配合效果更好.264比AV1要多——我想很快新的电视和平板电脑会有很多有趣的功能。), 最后 对于不同类型的内容,一般的高档(SR在顶部). GitHub上已经有640个公共存储库 超分辨率, 每1-2天就会出现新的. 我们计划准确地评估所有最有意思的竞争者. 目前的结果已经相当令人鼓舞,特别是我们已经测量(再次感谢) subjectify.us我们看到了相当乐观的前景图4).

 

图4. 超分辨率模型的精度和速度. (点击查看全尺寸图片.)

正如您所看到的,这一领域的指标存在一个重大问题. 面向psnr的方法往往会使图像模糊,这不利于视觉质量(图5). 当使用PSNR与编解码器配对时,我们甚至可以观察到负相关. 我们新的ERQA度量(试试“pip install ERQA”)看起来很有希望, 我们正在为SR改进它.

 

图5.  超分辨率任务的度量性能. (点击查看全尺寸图片.)

流媒体:  你是最早发现VMAF黑客问题的人之一. 那是什么情况? 

Vatolin:  这项工作已成功地继续下去. 去年夏天,Netflix发布了VMAF NEG(“负”代表“无增强增益”)。. 今年夏天我们出版了攻击VMAF和VMAF NEG:不同预处理方法的漏洞。” 关于如何使用其他增强功能破解VMAF NEG的文章. 不幸的是,到目前为止,“无增强增益”的VMAF还没有真正实现. 开发这种度量的最大问题是,当度量的抗黑客能力增加时, 其质量在相关性方面显著下降, 如图所示 图6.

 

图6.  VMAF - NEG的预测精度远低于其他VMAF模型. (点击查看全尺寸图片.)

我们可以看到 图7 VMAF NEG的性能比MS-SSIM差,但计算复杂度更高.

图7.  MS SSIM比VMAF-NEG更准确. (点击查看全尺寸图片.)

请注意,在最新版本的VQMT中,CPU上的MS-SSIM快速版本比OpenCL/GPU上的VMAF版本更快. 我们为什么要测量VMAF-NEG值,这一点并不明显, 如果CPU的速度差超过22倍. 然而,我们不应该忘记为什么我们首先提出这个话题. 如果我们只计算那些容易被攻击的参数值, 我们的比较不能算是客观的. 有一个严肃的问题:为什么要计算VMAF, 如果其相关性与MS-SSIM大致相同, 而GPU上的速度为3.减少5倍,CPU减少22倍(图8和图9).

图8. MS SSIM比GPU上的VMAF-NEG快得多. (点击查看全尺寸图片.)

图9. MS SSIM在CPU上也比VMAF-NEG快得多. (点击查看全尺寸图片.)

也就是说,我们的初步研究表明,还有其他方法可以增加VMAF的价值. 目前,我们已经展示了DISTS、LPIPS和MDTVSFA (?目前的NR基准领导者!)的度量标准越来越受欢迎,但也无法抵御黑客攻击. 我们计划在新的度量基准中分别分析度量的阻力.

流媒体: 关于何时以及如何使用VMAF,您的底线建议是什么?

Vatolin: 首先, 当你看到VMAF数据时,你必须非常小心,因为你没有指定它是如何计算的,以及在什么视频上计算的. 我们的测量表明,您可以通过简单地为比较的编解码器选择“正确”的视频序列(图10).

 

图10. VMAF版本准确性因内容类型而异. (点击查看全尺寸图片.)

如果你自己进行测量, 你需要查看许多内容,包括不同序列上不同参数的不同行为(详细描述显然超出了本文的讨论范围), 我们现在正在积极地研究这个话题。. 无论如何, 不幸的是,最近精确测量的复杂性大大增加了. 

流媒体: 我知道你看过很多AV1编解码器. 不指名道姓,你有没有怀疑过编解码器试图破解一个更好的分数?

Vatolin: 谷歌程序员添加了tune_vmaf.C到libbaom源代码(它实现了我们两年前发布的一个方法)一年多以前:).  在一般情况下, 我不想透露他们的名字, 但是再一次, 当我们在比较中遇到VMAF指标被成功黑客攻击时,我们开始对这一领域进行深入研究. 很明显,随着神经网络的出现,预处理和后处理, 以及神经网络编解码器, 问题将变得更加复杂.

流媒体: 像ITU-T Rec这样基于标准的指标的集成怎么样. P.1204到VQMT?

Vatolin: 首先,我们想测试一下它的抗黑客能力(开玩笑). 严肃地说, 这个指标将很快包含在我们的完整参考基准中, 这样你就能看到结果了. 我们已经计算了它的相关性,它们比预期的要低. 我们希望看到ITU-T Rec. P.1204由其他研究人员测试.

流媒体: 我一直非常喜欢VQMT中的低帧值,因为它可以衡量瞬时质量问题的可能性. LinkedIn最近的一条评论问道:“也许值得用5%的百分位数来取代低帧VMAF,以消除异常值(或统计学术语中的‘黑天鹅’——非常罕见的事件)的影响吗?”.  我不确定5%是正确的数字,但这是一个更好的方法? 如果是这样,正确的数字是多少?它是否在VQMT路线图上?"

Vatolin: 目前,VQMT可以包括VMAF值的95%置信区间的输出,即.e.,百分位数2.5%和97%.5%. 这些是通过应用一系列模型并从中获取统计信息来计算的. 添加任何其他百分位数并不复杂. 我们现在正在考虑添加一个设置,允许您调整置信区间的长度并设置任何您想要的值. 以获得更详细的统计分析, 您可以使用计算置信区间的模型中的数据. 在VQMT中,可以通过设置“每个模型值”来包含它们的输出." 

研究特定百分位数的充分性及其与MOS值的对应关系是一个非常有趣的课题. 目前,我们还没有现成的答案,以什么百分比是最好的. 但2.5%似乎是一个非常低的值,可能会受到异常值的影响. 在VMAF v0中的计算.6.2和v0.6.3 .组合约20个模型. 在这种情况下,2.5个百分位考虑了具有高权重的最低结果的模型. 这个模型可能是一个异常值. 切换到5%的值应该平滑任何不适当的结果.

流媒体: 有点跑题了, 但我注意到白皮书中许多“学术”编解码器的比较发现AV1的性能远低于HEVC, 而你们中的很多人却有相反的发现. 你怎么解释这两者的区别呢?

Vatolin: 为了评估编解码器的比较,你必须考虑三个主要的事情——哪个编解码器正在被比较, 用什么设置,用什么序列. 我们从开发者那里收到编解码器和设置——这是非常重要的. 许多优化得很好的编解码器并不是免费的. 例如, 今年腾讯AV1的表现明显好于力宝AV1. VVC的情况也一样——在“免费版本比较”中很容易看出VVC本质上比libbaom AV1差, 但与商业版本的编解码器相比,我们看到了另一幅图景(图11).

 

图11. 编解码器性能与MSU 2021编解码器的比较表明,VVC具有巨大的潜力. (点击查看全尺寸图片.)

也, 注意比较的读者知道,即使是完美调优的x264, 很久以前,开发人员向我们发送了编码食谱,这些食谱比标准预设提供了更好的结果. 为什么会发生这种情况是另一个问题,但这是一个很容易证实的事实. 在一般情况下, 选择好的预设也是一个非常复杂的问题, 我们有一些出版物和网站 高效的视频转码.大师, 我们在哪里展示比标准甚至比开发者的预置更好的预置选择.

最后, 你可以在每次比较中阅读我们的数据集和一些学术数据集之间的差异. 特别是, 我们专注于对编解码器来说更简单的序列, 但在现实生活中更常见的是复杂性. 由于我们每年都直接从开发者那里收到很多批评和建议(我们也在不断地执行它们),所以我们有理由相信我们的结果更接近现实生活.

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

回顾:莫斯科国立大学视频质量测量工具.1

无限的文件分析和Python界面突出了新功能

举报视频质量不佳

SSIMWAVE的视频体验专家比较了美国八个顶级游戏.S. 流媒体服务和质量的差异令人震惊. 但更令人震惊的是,这些服务提供的视频质量都没有达到订户和创意人员的预期.

莫斯科国家报告:俄罗斯仍是普京的首选.264,但对HEVC和AV1有影响

好消息是:一如既往,莫斯科国立大学的编解码器研究是最全面的. 坏消息是:除非你是TikTok或腾讯,否则你无法访问一些表现最好的应用.

回顾:莫斯科国立大学视频质量测量工具

如果你真的想尝试不同的编解码器和/或编码参数, 密歇根州立大学的视频质量测量工具是一个必不可少的工具, 版本13带来了一些受欢迎的改进.

莫斯科国立大学2019年编解码器比较

在视频编解码器的严格测试中, 只有一个在客观和主观测试中产生了截然不同的结果. 是什么导致了这种差异呢?

莫斯科国家更新VQMT与新的指标

莫斯科国立大学的视频质量测量工具已经很好了. 新版本中的增强功能, 包括新的指标和同时运行多个分析的能力, 让它变得更好.