河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

AI舞哪个比较强? 谷歌3d舞者听歌跳舞,挑战DanceNet

来源:河洛网    发布时间:2021-02-01     发布人:洛阳新闻网

这次,Transformer参加了舞蹈生成任务。

AI舞哪个比较强? 谷歌3d舞者听歌跳舞,挑战DanceNet

在艺术领域,AI有AI生成音乐、AI绘画等各种应用。

舞蹈也是AI努力学习的能力。

到目前为止,以音乐风格、节奏、旋律为控制信号生成3D舞蹈动作的DaceNet曾风靡一时。

现在,DanceNet迎来了新的挑战者&mdash。 — 给出来自谷歌的最新研究AI Choreographer秒的指导动作后,AI模型可以随着音乐的节奏生成自然的舞蹈动作。

生成的舞蹈效果如下(很遗憾动态图没有声音)。

与类似DanceNet的同类研究相比,谷歌新方法的效果更明显。 的两种方法生成的舞蹈动作就像“吸引”,这种新方法更流畅自然。

值得注意的是,这是基于转换器的模型。

论文地址: HTTPS:/ Arxiv.org/PDF/2101.08779 V1.PDF

的地址: https:/谷歌. github.io/ai Choreographer /

让我们来详细看看论文

创造符合音乐节拍的动作模式跳舞是人类的基本能力。 舞蹈是所有文化的共同语言,现在很多人在多媒体平台上通过舞蹈来表达自己。 YouTube上最受欢迎的视频是以舞蹈为主的音乐视频,如Baby Shark Dance、江南Style等,舞蹈在互联网信息传播中成为了强大的传播工具。

但是,舞蹈是一种艺术形式,即使是人类,也需要专门的训练来让舞蹈者掌握丰富的舞蹈动作曲,制作具有表现力的舞蹈编排。 在计算方面更具挑战性。 这个任务是因为,为了捕捉与伴奏音乐的非线性关系,需要有生成连续的高运动学复杂性动作的能力。

在这项研究中,南加州大学、谷歌研究所和加州大学伯克利分校的研究人员提出了一种新的3D舞蹈动作数据集AIST++,用于训练基于transformer的交叉模式学习架构和生成3D舞蹈动作的模型

具体来说,如果赋予音乐和短( 2秒)种子动作,本模型可以生成长序列的真实3D舞蹈动作。 该模型可以有效地学习音乐动作的相关性,生成不同输入音乐的舞蹈序列。 研究者将舞蹈表现为由关节旋转和全局平移组成的3D动作序列,使输出可以很容易地转移到动作重定向等应用中。 具体流程如下图1所示

在学习框架中,该研究新提出了基于转换器的交叉模式结构,生成了基于音乐的3D动作。 该体系结构构建在基于注意力的网络上,已被证明对长序列的生成特别有效。 该生成模型针对不同的音乐生成不同的舞蹈序列,生成生长时间的真实动作,在进行推理时不受漂移冻结的影响。

为了培训ais t +数据集模型,该研究还创建了一个名为ais t +的新数据集。 这个数据集是基于AIST (多视点舞蹈视频库) [78]构建的。 研究者利用多视点信息从数据中恢复可靠的3D动作。 这个数据集有多视点照片,但是照相机没有校准,所以3D重建非常困难。

众所周知,AIST++数据集包含最多110万帧的伴随音乐的3D舞蹈动作,是这种数据集中最大的。 AIST++还跨越10种音乐类型、30个主题、9个视频序列,具有恢复的摄像机的内在特性,在其他人体和动作研究方面有很大的潜力。

数据集地址: https:/ Google.github.io/Aist Plus _ Dataset /

这项研究制作的AIST++是大规模的3D舞蹈动作数据集,包含了很多伴随音乐的3D舞蹈动作。 其中每个框架都有以下附加注释:

17种COCO形式的人类关节位置24个SMPL姿势参数,包括9个视角2D和3D形式,包括摄像机内外参数,全局扩展和平移。 下表1将ais t +与其他3D动作和舞蹈数据集进行了比较,ais t +补充了现有的3D动作数据集。

此外,AIST++数据集还包含old school (断开、Pop、锁定、唤醒)和new school (中间惠普、LA-style Hip-house、k

基于音乐的3D舞蹈生成问题的说明:如果指定2秒的动作种子示例X = (x_1,. . . ,x_T )和音乐序列Y = (y_1,. . . ,y_T ' ),则时间步骤t +1~ t’ >; t

通过交叉模式行为生成转换器

在该研究中,提出了学习音乐-动作关联,生成不停滞的真实动作序列的基于Transformer的网络架构。 模式图请参见图2。

这个模型有三个转换器。

将动作变换器f _ mot ( x ) :动作特征x变换为动作嵌入h^x_1:T。 音频变换器f _音频( y ) :将音频特征y嵌入到音频中的h^y_1:T '; 交叉模式变换器f _ cross ( h ^ xy _1: t + t ' ) :学习动作和音频两种模式之间的对应关系,生成未来的动作x '。 为了更好地学习两个特征值之间的关联,该研究使用了深度为12层的变压器。 研究人员发现,交叉模式变换器的深度越大,对模型的两种模式的兴趣就越高(参见图6 )。 。

实验定量评价

报告了该方法和2种基线方法在AIST++测试组的定量评价结果,如下表2所示。

动作质量:由上表可知,用该方法生成的动作序列的关节和速度分布更接近真实值动作。

动作多样性:表2显示,与基线方法相比,提案方法可以生成更多样的舞蹈动作。 对控制变量的研究结果表明,网络设计,特别是交叉模式变换器是导致这种差异的主要原因。 研究者将通过该方法生成的多种舞蹈动作可视化,请参照图7。

动作―音乐相关:从表2中也可以看出,用该方法生成的动作与输入音乐的关联性很强。 下面的图5的例子显示生成动作的运动节拍和音乐节拍很好地匹配。

但是,与实际数据比较时,这三种方法都大大改善了空之间。 这说明了音乐动作的关联仍然是一个非常困难的问题。

控制变量研究交叉模式转换器:这篇论文使用三个不同的设定来研究交叉模式转换器的功能:1) 14层动作转换器; 2 ) 13层动作/音频转换器和1层交叉模式转换器3 ) 2层动作/音频转换器和12层交叉模式转换器。

下表3显示了交叉模式转换器对于生成与输入音乐具有高关联性的行为至关重要。

如图6所示,更深的交叉模式变换器可以关注输入音乐,带来更好的音乐-动作关联度。

因果注意力或完全注意力Transformer :研究者还探索了完全注意力机制和future-N监测机制的效果。 从下面的表4可以看出,利用因果注意力机制进行20秒钟的长途旅行生成时,生成动作和真值动作的分布有很大不同。 在future-1监控设置中的完全注意力机制下,长距离生成过程中的结果会快速漂移,在future-10或future-20监控设置中,模型可以生成高质量的长距离动作。

【编辑推荐】

营销人员如何使用人工智能和机器学习来接触客户 营销人员如何使用人工智能和机器学习来接触客户 几十年前,当技术专家* * *建立人工智能的概念时,他们希望创造一种可以模仿人类智能的技术。然而,人工智能在大数据和分析领域的实际性能

上帝在工作!制作图像识别人工智能只需要5行代码 在本文中,我们将简要介绍人工智能领域,特别是计算机视觉领域所面临的挑战,现有的应对这些挑战的现代解决方案,以及如何在不花费大量时间和精力的情况下方便、轻松地应用这些解决方案

奥巴马被强制“洗脑”后,AI在艺术作品中犯了种族偏见的大忌本文由雷锋网转载,必要时转载到雷锋网官网申请授权。 奥巴马被强制“洗脑”后,AI在艺术作品中犯了种族偏见的大忌 你能识别哪个艺术作品是AI创作的吗? 即使是最有经验的艺术家,有时也无

我们对人工智能的误解有多深 我们对人工智能的误解有多深 人工智能技术有积极和消极两方面的影响。虽然它造福人类,但也有各种风险。理论上,可能有以下四种风险。 技术失控了。技术失控是指技术的发展超出了人类的

3D多语种AI记者来了,不仅文章和翻译没有压力,还能一线报道国际体育大比武本文从雷锋网络转载,转载时请向雷锋网络官方网站申请行政许可。 3D多语种AI记者来了,不仅文章和翻译没有压力,还能一线报道国际体育大比武 世界上第一个3D多语言AI报录人诞生! 最近,字

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游