河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

字节博士制作的AI点燃,一键将人声和伴奏完美分离

来源:河洛网    发布时间:2021-10-12     发布人:洛阳新闻网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

字节博士制作的AI点燃,一键将人声和伴奏完美分离

写歌词、改变风格、继续写音乐的AI,今天又将成为编曲者!

上传“Stay”,然后单击:

伴奏和人声很容易分离:

是什么意思? __biz=MzIzNjc1NzUzMw==&; mid=2247594465&; idx=3&; SN = 83 A 18be 3019分贝6040031618 D 112直流与地图; CHKSM = E8D 1c 693 DFA 64 F85E 7DB 0f 5157 DB 53361 DA 6c8B 71A9CEAC DFC 29A 28399 BD 6D 046014 F & AMP; token=497180065&; 朗= ZH _ CN # RD

空在沙漠地带清唱的人的声音感觉很清晰,背景音乐可以直接拿去混剪!

这种惊人的效果也引起了Reddit的话题:

这项研究的主要负责人孔秋强来自字节跳动,世界最大的古典钢琴数据集GiantMIDI-Piano也于去年主导发表。

今天他带来了什么样的AI音乐家呢?

一起看看吧。

基于深度残差网络的声源分离这是一种包括相位估计的音乐源分离( MSS )系统。

首先,对振幅( Magnitude )和相位)进行去耦,估计复数理想比例掩模( cIRM )。

其次,为了实现更灵活的振幅估计,将有界掩码估计与直接振幅预测相结合。

最后,在MSS系统中引入143层深度残差网络( Deep Residual UNets ),利用残差编码块( REB )和残差解码块( RDB )来增加其深度。

在残差编码块和残差卷积块的中间引入中间卷积块( ICB ),提高残差网络的表现能力。

这里,各残差编码块由4个残差卷积块( RCB )构成,残差卷积块还以2个核心尺寸构成3 )3×; 的卷积层构成。

每个残差解码块由8个卷积层和1个反卷积层组成。

实验结果如下:接着,用MUSDB18数据集对该系统进行了实验。

MUSDB18的训练和验证集包含100/50的完整立体声音轨,包括独立的人声、伴奏、低音、鼓和其他乐器。

在训练时,使用上述系统增强并行的混合音频数据,将来自同一源的两个3秒段随机混合,作为新的3秒段进行训练。

如果以信号畸变率( SDR )为评价标准,则可以看出ResUNetDecouple系统在分离人声、低音和其他伴奏方面明显优于以前的方法。

烧蚀实验证明,143层残差网络的表示也是有界掩码估计和直接振幅预测相结合能切实改善声源分离系统的性能。

作者介绍这项研究的论文是孔秋强,本硕毕业于华南理工大学,博士毕业于英国萨里大学的电子信息工程专业。

他在2019年加入了字节跳动的Speech、Audio and Music Intelligence研究小组,主要负责音频信号处理和声音事件检测等领域的研究。

论文: https://arxiv.org/ABS/2109.05418

试玩: https://hugging face.co/spaces/akhaliq/music _ source _ separation

开源地址: https://github.com /字节距离/源间隔

链接到: https://www.Reddit.com/r /机械学习/注释/ pqpl 7m/r _解码_管理_相位

【编辑推荐】

人工智能使智能锁具有“思维”并触及用户痛点 部分门行业发展潜力巨大,尤其是门锁行业正处于从传统门锁向智能门锁转型的关键风口。根据相关数据,智能门锁行业正以爆炸性的速度增长。2016年,市场容量将达到200万台,今年预计将达到

LeCun与博士后arxiv合作发表文章,被reddit网民质疑:第一张图是错误的。神经网络模型训练的最大缺点是需要大量的训练数据,能够很好地解决标记问题而不是监督学习和自我监督学习。 LeCun与博士后arxiv合作发表文章,被reddit网民质疑:第一张图是错误的。 今年3月,

填写防疫,监考,志愿者,看看AI如何应对考试今年的高等院校入学考试从头到尾都有AI的身影。 填写防疫,监考,志愿者,看看AI如何应对考试 如果说2020年的考生是史上最难的一次的话,完全不为过。 距离高考还有半年,在应该全力战斗的

距离无监视用堆栈编码器过时了吗? ML博士比较了8个自编码器柏林工业大学深度学习方向博士生Tilman Krokotsch在多项任务中比较了8种自编码器的性能。 距离无监视用堆栈编码器过时了吗? ML博士比较了8个自编码器 深度学习中的自编码器。 图片来源: https:/

黑镜狗再现! 波士顿动力“大黄狗”上岗SpaceX调查爆炸现场最近,在SpaceX宇宙飞船爆炸现场上演了类似“黑镜”的场景。 来自波士顿动力的“大黄狗”在星舰原型SN10爆炸现场附近巡逻,帮助工人清理并回收火箭零件。 这个场景在很多网民中看到,被称为

上一篇:人工智能和神经网络有什么联系和区别?

下一篇:没有了

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游