河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

卷积不需要完全基于变换器的第一个视频理解架构

来源:河洛网    发布时间:2021-09-09     发布人:洛阳新闻网

Facebook AI提出了一种新的视频理解架构:完全基于转换器,不需要卷积,训练速度快,计算成本低。

卷积不需要完全基于变换器的第一个视频理解架构

TimeSformer是第一个基于转换器的视频架构。 近年来,Transformer已成为机器翻译、通用语言理解等自然语言处理( NLP )领域许多应用的主导方法。

TimeSformer通过几个具有挑战性的行为识别标准(包括Kinetics-400行为识别数据集)实现了最佳性能。 另外,TimeSformer的训练速度比3D卷积神经网络( CNN )快约3倍,估计所需的计算量不足其1/10。

论文链接: https:/ arxiv.org/pdf/2102.05095.pdf

此外,TimeSformer的可扩展性允许通过更长的视频片段训练更大的模型。 这为AI系统在视频中理解更复杂的人类行为打开了大门,对于需要理解人类复杂行为的AI应用来说是极其有益的。

在Kinetics-400 (左)和Kinetics-600 (右)两个动作识别标准下,TimeSformer比较了目前具有SOTA性能的3D卷积神经网络的视频分类精度和结果。 TimeSformer在两个数据集上都达到了最佳精度。

时间格式器:一种新的视频理解体系结构

传统的视频分类模型利用3D卷积滤波器。 虽然这样的滤波器对于捕捉局部时空区域内的短距离模式是有效的,但是不能对超过接受区域的时空依赖关系进行模型化。

因为TimeSformer只构建在“转换器”模型中使用的自我提醒机制中,所以在捕获整个视频时可以使用空依赖关系。 为了将转换器应用于视频,该模型将输入视频解释为从各帧提取的图像patch的时间- 空空间序列。

这个格式类似于NLP中使用的格式。 在NLP中,Transformer将语句视为从各个单词计算出的特征向量序列。 就像NLP Transformer将各个单词与文中的其他单词进行比较来推测其含义一样,模型通过将各个patch与视频中的其他patch进行明确的比较来获得各个patch的含义。 这也就是所谓的自我注意机制,可以捕获邻接的patch间的短距离依赖性和远程patch间的远程关联。

传统的3D卷积神经网络需要在视频中的所有空之间-时间位置使用大量的滤波器,因此计算成本很高。 TimeSformer将(1)视频分解为一组不重叠的patch,因此计算成本低(2)采用自我注意力,避免所有patch对的详细比较。 研究者将该方案称为分割空间-时间注意力,其思想是依次应用时间注意力和空间注意力。

的注意力,每个patch (例如下图中的蓝色正方形)只与其他帧相同的空之间的位置patch (绿色正方形)进行比较。 如果视频包括t帧,则每个路径只进行t次时间比较。 使用空间注意力时,每个patch只与同一帧内的patch (红色patch )进行比较。

因此,如果n是每帧的patch数,则空间-时间注意力分割的方法需要的不是空间-时间注意力联合的方法,而是每个patch合计( T+N )次的比较(。 n )次的比较。 此外,该研究还发现,与联合空间-时间注意力相比,分割空间-时间注意力不仅更有效,而且更准确。

TimeSformer的可扩展性允许您在非常长的剪辑(例如,102秒的96帧序列)上运行,从而执行与当前3D CNN明显不同的长时间建模。 后者最多只能处理几秒钟的片段.识别长时间的活动是重要的需要.

例如,假设有一个制作法式吐司的视频。 如果一次分析几秒钟的AI模型,有时会识别出打鸡蛋、把牛奶放入碗中等原子运动。 但是,按各个动作进行分类并不足以将复杂的活动进行分类。 TimeSformer可以在更长的时间范围内分析视频,明确原子运动之间的明确依赖关系(将牛奶和已经制作好的鸡蛋混合等)。

TimeSformer的效率允许以高空秒分辨率(例如,高达560x560像素的帧)和长视频(包括高达96帧)训练模型。

上图显示了TimeSformer学习到的自我注意热图的可视化。 第一行是原始帧,第二行根据基于自身注意力的视频分类的重要性对各像素的颜色进行加权(被认为不重要的像素变暗)。 。 TimeSformer学习加入视频的相关领域,以执行复杂的时间空推理。

促进更多领域的发展

为了训练视频理解模型,目前最好的3D CNN只能使用几秒钟的视频剪辑。 使用TimeSformer,可以训练更长的视频剪辑(最多几分钟)。 这可能会大大促进研究,让机器了解录像复杂的长动作。 这对于许多旨在了解人类行为的AI应用程序(如AI助手)来说是重要的一步。

另外,TimeSformer的低推理成本是迈向未来实时视频处理应用的重要一步,如为AR/VR和可穿戴摄像机提供服务的智能助手。 研究人员相信,这种方法的成本削减将推动更多的研究人员致力于解决视频分析问题,从而加快这一领域的研究进展。

【编辑推荐】

澳大利亚法院裁定人工智能可以被视为专利申请的发明者据外国媒体报道,澳大利亚法院裁定,人工智能可以被认定为正在申请专利的发明者。 关于Stephen Thaler提起的案件,澳大利亚联邦法院上个月审理决定,该国专利专家不能将人工智能视为发明者时

人类比机器人和人工智能做得好7种工作。 尽管机器人和人工智能可以完成许多人类能完成的任务,但对于某些任务,人类仍然可以比机器人做得更好。 人类比机器人和人工智能做得好7种工作。 在过去的几十年里,人工智能的出现导致了

超级写作人工智能甚至学会了象棋和写作。语言模型的跨界操作引起了激烈的讨论和网络战争 本文经人工智能新媒体qubit(公开号:QbitAI)授权转载。请联系来源以便重印。 超级写作人工智能甚至学会了象棋和写作。语言模型的跨界操作引起了激烈的讨论和网络战争 文本生成模型还能做什么?

2020年的人工智能改变了我们生活的哪些方面?2020年是非常普通的一年,但非常不平凡。 在生活中,人工智能代替了外卖的哥哥、公共汽车司机,当病情在街上时,人工智能承担着人生病的风险,在医学上,是人人关注的新冠,从数字信息的

AI生成肖像画,连毛发都细致! 北大校友最新研究收获2.8k星标本文转载自雷锋网络。 转载时请到雷锋网络官网申请许可证。 AI生成肖像画,连毛发都细致! 北大校友最新研究收获2.8k星标 rdquo; 打工的一天终于结束了! 本打算拖着疲惫的身体下班,但听到

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游