河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

训练速度远远超过3D CNN,快三倍! 转换器

来源:河洛网    发布时间:2021-09-09     发布人:洛阳新闻网

Facebook AI发布了新的视频理解架构时间格式器。 这也是第一个基于转换器的视频架构。 视频剪辑的上限为几分钟,远远超过目前最高的3D CNN,成本较低。

训练速度远远超过3D CNN,快三倍! 转换器

被称为时间空间转换器的时间转换器是第一个基于转换器的视频架构,近年来已成为许多自然语言处理( NLP )应用的主要方法,包括机器翻译和通用语言理解。

论文链接: https:/ arxiv.org/pdf/2102.05095.pdf

TimeSformer在包括Kinetics-400动作识别数据集在内的几个难度系数较高的动作识别标准中取得了最大的效果。 另外,TimeSformer的训练速度比现代3D卷积神经网络( CNN )提高了约3倍,推理所需的计算量不足以往的十分之一。 这是支持需要实时或按需处理视频的应用程序的重要步骤。

此外,时间格式器是可伸缩的,可以用于训练更长视频剪辑的更大模型。 由此,人工智能系统可以在视频中理解更复杂的人类行为,如涉及多个原子步的活动(汽车维修、食物准备等)。 许多需要理解复杂人类行为的人工智能应用程序都会受益。

TimeSformer和先进的3D卷积神经网络在Kinetics-400 (左)和Kinetics-600 (右)行为识别标准中的视频分类精度。 TimeSformer在两个数据集上都实现了最高的精度。

时分空注意力传统的视频分类模型利用3D卷积滤波器。 这些滤波器对捕捉局部时空区域内的短期模式很有效,但无法对超过其接受区域时空依赖关系进行模型化。

但是,TimeSformer完全基于转换器使用的自我提醒机制,允许空依赖性捕捉整个视频。

为了将转换器应用于视频,时间转换器将输入视频解释为从一个帧中提取出的图像块的时间空序列。 这个格式类似于NLP中使用的格式。 也就是说,Transformer将句子视为从单个单词计算出的特征向量序列。

正如NLP Transformer将各个单词与文中所有其他单词进行比较推测其含义一样,该模型通过将各个patch与视频中的其他patch进行明确比较来获取各个patch语义。 这样,就可以获得相邻patch之间的短期依赖性和远程patch之间的长期相关性。

传统的3D卷积神经网络在视频的所有时间空位置都需要使用大量的滤波器,因此计算成本也很高。

TimeSformer应用自我注意的形式,1 )将视频分解为不重复的组,2 )不详细比较所有的patch,维持较低的计算成本。 我们把这个方案叫做“分时空注意力”。 这个想法是按顺序应用时间注意力和空间注意力。

应用时间注意事项时,每个面片(例如,下图中的蓝色正方形)仅与其他帧中相同空之间位置的面片(绿色正方形)进行比较。 如果视频包含t帧,则每个修补程序只进行t次时间比较。

应用空之间的注意力时,每个patch只与同一帧中的patch (红色面片)进行比较。 所以,如果n是每帧的patch数,那么分时空注意力只能执行每patch ( t + n )次的比较,联合时空注意力贫困法需要( t * n )次的比较。 此外,该研究还表明,分时空注意比联合时空注意更高效、更准确。

TimeSformer是可伸缩的,可以在非常长的剪辑(例如,跨越102秒时间范围的96帧序列)上运行,从而进行长时间范围的建模。 这与现在的3D CNN大不相同,后者仅限于最长几秒的片段,是识别长时间活动的重要要求。

例如,让我们看一段展示如何做法式吐司的视频。 人工智能模型一次分析几秒钟,就能识别出几个原子的运动(打鸡蛋、把牛奶放进碗里等)。 但是,对每个行为进行分类并不足以对复杂的活动进行分类(很多食谱都涉及到打鸡蛋)。 。 TimeSformer可以在更长的时间范围内分析视频,明确原子运动之间的明确依赖关系(例如,将牛奶和碎鸡蛋混合)。

通过TimeSformer的效率,现在可以训练空间分辨率高的模型(例如,帧最多为560x560像素)和长视频(最多96帧)。 这些图表将视频分类成本( TFLOPs )显示为空空间分辨率(左)和视频长度(右)的函数。 从这些图中可以观察到,分散时空注意力比枯竭时空共同注意力,特别是应用于大帧和长视频时,可以节约很多计算能力。 实际上,如果空之间的帧分辨率达到448个像素或帧数,增加到32帧,则联合时空注意力会溢出GPU存储器,不能有效地应用于大帧或长视频

该图显示了TimeSformer学习的自我注意热图的可视化。 第一行表示原始帧,第二行根据基于自我注意力的视频分类的重要性(被认为不重要的像素变暗)对各像素的颜色进行加权。 如图所示,TimeSformer关注视频中的相关区域,以执行复杂的时间空推理。

TimeSformer视频剪辑的上限是几分钟,为了训练视频理解模型,目前最高的3D CNN只能使用几秒钟的视频剪辑。 使用TimeSformer,可以训练更长的视频剪辑最多几分钟。 这有可能极大地促进机器理解视频复杂的长动作的研究,是了解许多研究人类行为的人工智能应用的重要一步。

另外,TimeSformer的低推理成本是支持未来实时视频处理应用的重要步骤,如用AR/VR或可穿戴式摄像机拍摄的视频智能助手等。 TimeSformer可以降低成本,帮助更多的研究者解决视频分析问题,从而加快这一领域的进展。

【编辑推荐】

用AI和自动化技术加强安全性2020年突然爆发的新型冠状病毒大爆发使许多员工不得不呆在家里,但西门子美国分部进一步采取了远程办公室的安全措施,多次发现并消除了潜在的数据违规威胁。 在此期间,西门子致力于应用

机器人送货慢吗?Avida开发人工智能模型:总数据集图像超过150,000,成功率100% 这篇文章来自雷锋网。如需转载,请在雷锋网官方网站申请授权。 机器人送货慢吗?Avida开发人工智能模型:总数据集图像超过150,000,成功率100% 想象一下,如果你想优雅地把你手中的小方块递给

素描会变成真人脸吗? 甲:可以。 草很多。本文经AI新媒体量子位(公众号ID:QbitAI )授权转载,转载请与来源联系。 素描会变成真人脸吗? 甲:可以。 草很多。 画画手不方便,想做真正的人吗? 这个有。 油管( Youtube )的小哥哥,用简单的小

企业采用人工智能存储的七个注意事项企业内的人工智能新的人工智能(人工智能)和机器学习) ML )的工作负载对企业基础设施提出了新的要求。 基于文件的工作负载是许多人工智能驱动的创新的核心。 因此,视频、图像、音频文件等非

微软人工智能新技术:让你的头像动起来,动情地说话 【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 本文摘自雷锋网。如需转载,请到雷锋网官方网站申请授权。 微软人工智能新技术:让你的头像动起来,动情地说话 越来越多的

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游