河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

用AI打破编解码器内卷,高通最新的几篇顶会论文脑洞有点大

来源:河洛网    发布时间:2021-10-12     发布人:洛阳新闻网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

用AI打破编解码器内卷,高通最新的几篇顶会论文脑洞有点大

用AI做视频编解码器,现在路子有点“ 野” 。

插件、过拟合、语义识别、GAN… … 这些“ 脑洞” 或者AI算法也可以用于编解码器吗?

例如,原始算法压缩到每帧16.4KB后,林开始变得非常模糊:

但是,使用GAN,不仅画面更清晰,每帧的图像也更小,只需要14.5KB。

另外,例如,通过以帧插补的想法组合神经编解码器,可以更有效地利用最新的压缩算法… …

这一系列算法的想法,背后有什么原理,用AI制作编解码器,潜力有多大?

我们采访了高通工程技术副总裁、高通AI研究方向负责人侯纪磊博士,了解了高通几种AI编解码器的算法细节和原理。

编解码器的标准逐渐变为“ 内卷” 当然,在了解AI算法的原理之前,我们需要知道视频是如何压缩的。

如果不压缩,1秒30帧、8bit单通道色深的480p视频必须每秒传输80+Mbps的数据,几乎不可能在网上实时观看高清视频。

目前主要有色度子采样、帧内预测(空) /间冗余)和帧间预测) )时间冗余)的几个维度的压缩方法。

色度子采样主要基于我们眼睛对亮度比颜色更敏感的原理,压缩图像的颜色数据,但在视觉上保持与原始图像相近的效果。

在帧内预测中,使用相同帧中的广阔的相同颜色的块(下图的地板等)预测图像内的邻接像素的值,结果得到了比原始数据更容易压缩的结果。

帧间预测。 如何消除相邻帧之间的大量重复数据(下图背景)。 使用运动补偿方法,使用“运动向量”( motion vector )和预测值计算两帧之间的像素差。

这些视频压缩方法具体到视频编解码器,可以进行分区、量化、熵编码等许多压缩工作。

但侯纪磊博士表示,从H.265到H.266,压缩性能提高了30%左右,这是随着编码复杂度提高了30倍、解码复杂度提高了两倍而实现的。

这意味着编解码器标准进入了“内卷” 的状态,提高的压缩效果,本质上用编解码器的复杂性进行了交换,不能说真的完成了创新。

因此,高通从现有压缩方法本身的原理和编解码器的结构入手,创造了一些有趣的AI视频编解码方法。

提高三向压缩性能具体来说,目前的AI研究有帧间预测方法、降低解码复杂度、提高压缩质量三个方向。

“ b帧的预判断” 从帧间预测来看,高通对b帧编解码器提出了新的构想,论文已经在ICCV 2021上。

I帧:帧内编码帧(帧内图片)、p帧:前向预测编码帧)、b帧:双向预测内插编码帧) bi-directionalinterpolatedpredictionframe

当前的编解码器大多集中在I帧(帧内预测)和p帧上,但b帧同时利用I帧和p帧的双向运动补偿来提高压缩性能,在H.265中正式支持) H.264中没有。

b帧可以提高视频的压缩性能,但有两个问题。

一种是视频必须预先加载(为了得到b帧,必须预先对后面的p帧进行编码); 另一种情况是,如果仍然存在冗余,并且I帧和p帧高度相关,则使用双向运动补偿是徒劳的。

例如,I帧和→ b帧和粗帧; 在p帧、视频中只有一个球在直线移动距离,但如果通过双向运动进行补偿,将会浪费:

在这种情况下,使用插补帧好像比较好。 可以通过时间戳直接预测物体的运动状态,编码计算量也变低。

但是,这又会产生新的问题。 如果I帧和p帧之间有非常大的突变,例如球突然在b帧上反弹,这时在插值帧上效果就很差(就像直接忽略了b帧的跳跃一样)。

从而,高通选择将两者组合在一起,并将基于神经网络的p帧压缩和插值帧补偿结合在一起,使用AI预测在插值之后需要进行的运动补偿:

当然,效果是肯定的。 它优于谷歌以前在CVPR 2020上维护的SOTA记录,也优于目前基于H.265标准实现开源编解码器的压缩性能。

另外,高通还尝试了一些其他的AI算法。

“ 过拟合” 对于降低解码复杂度的编解码器标准内卷,高通也将“ 过拟合” 同样基于视频比特流更新模型权重的增加,相关论文已经在ICLR 2021上发表。

该方法针对单个模型“ 过拟合” 然后对比特流中的权重增量进行编码,并与原始比特流进行比较。 如果效果更好的话,就采用这种传输方式。

事实证明,该方法可以在不降低压缩性能的情况下使解码复杂度降低72%,同时保持在以前的b帧模型中达成的SOTA结果。

当然,不仅需要考虑动态图像压缩性能,还需要考虑1帧图像压缩的质量,视觉效果也是动态图像压缩所要求的基准之一。

要通过语义感知和GAN提高压缩质量,只要使用语义感知和GAN的想法就很简单。

语义感知是指,让AI根据人类的视觉进行思考,在观看动画时选择最关注的地方,将重点放在该部分的位分配情况上。

例如,看网球比赛时,往往不是关注比赛旁边的观众长什么样,风景如何,而是关注选手自身的动作和打法等。

那么,训练AI,把更多的比特对准目标人物就行了。 像这样:

结构上也很简单。 也就是说,我们经常看到的语义分割Mask (掩码) :

该方法在视频被压缩时使整个图像成为“ 马赛克” 看起来像。

根据高通表示,这种语义识别的图像压缩现在已经扩展到视频压缩中,同样关注局部方法也是有效的。

基于GAN的方法致力于以更少的位数生成视觉效果好的画质。

根据高通的说法,数据集来自于CVPR中用于图像压缩的Workshop CLIC,提供约1600张HD图像,可以利用自研的模型在此基础上训练出较好的效果。

也就是说,开头的图像效果可以确保基于GAN的图像在大小压缩后获得更好的视觉质量。

这些技术很快就应用到了手机等设备上,期待着我们在看视频的时候真的不会卡了。

相关论文:// Arxiv.Org/ABS/2104.00531 HTTPS://Arxiv.Org/ABS/2101.08687

【编辑推荐】

一个比阿尔法狗更强大的人工智能算法来了!在中国! 人工智能是近年来的热门话题。阿尔法围棋(AlphaGo)先后击败人类围棋大师后,人工智能似乎立刻进入了生活的每个角落。 一个比阿尔法狗更强大的人工智能算法来了!在中国! 但是,你知道吗?

你“看着”有人看着,清华研究者从微信上发现了这些规律微信点“看”最活跃的用户是父母那一代,年轻人最“安静”hellip; 清华大学唐杰等人最近的研究通过wechat“看看”的数据,分析用户点击阅读文章、点击“看”的行为模式,从人口统计状况、二

2019中国年度人工智能评选揭晓!前50大龙头企业、前10大业务突破和前10大创新产品 本文经人工智能新媒体qubit(公开号:QbitAI)授权转载。请联系来源以便重印。 2019中国年度人工智能评选揭晓!前50大龙头企业、前10大业务突破和前10大创新产品 基于真实数据,结合2019年以来对数百

你“看着”有人看着,清华研究者从微信上发现了这些规律微信点“看”最活跃的用户是父母那一代,年轻人最“安静”hellip; 清华大学唐杰等人最近的研究通过wechat“看看”的数据,分析用户点击阅读文章、点击“看”的行为模式,从人口统计状况、二

理解无人机的通信链路系统无人机是无人驾驶飞机的简称,不是利用无线遥控设备和准备好的程序控制装置来操纵的有人。 从技术定义上可以分为无人固定翼飞机、无人垂直起落架、无人飞艇、无人直升机、无人多旋翼飞机

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游