音乐生成深度学习模型StemGen:听取音乐上下文生成音乐作品
**划重点:**
1. 🤖 革新性方法:研究采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,突破传统抽象条件的模型。
2. 🌐 模型效果验证:来自SAMI和字节跳动的研究人员引入非自回归、基于Transformer的模型,并通过标准指标和主观测试证明其音频质量和音乐与上下文的强大协调性。
3. 🚀 技术进步:研究结合图像和语言处理技术,以端到端的方式推动深度学习音频生成,并提出通过非自回归、基于Transformer的架构训练模型的新范例。
字节跳动AI研究团队最近推出了一项名为StemGen的音乐生成项目,该项目采用了一种创新的深度学习方法,旨在让模型能够模仿现有音乐中的模式和结构,并以一种非常前卫的方式回应音乐背景。与常用的深度学习技术(如RNN、LSTM网络和Transformer模型)不同,StemGen采用了一种非自回归、基于Transformer的模型,强调对音乐背景的听取和响应,而不是依赖于抽象的条件。
研究中,来自SAMI和字节跳动公司的研究人员引入了一种非自回归、基于Transformer的模型,该模型通过利用MusicGen模型的公开可用的Encodec检查点来监听和响应音乐背景。通过使用标准度量和音乐信息检索描述符方法,包括Frechet Audio Distance(FAD)和Music Information Retrieval Descriptor Distance(MIRDD),研究团队评估了模型的性能。结果显示,该模型在音频质量和与音乐背景的稳健对齐方面表现出竞争性,经过客观度量和主观MOS测试的验证。
这项研究强调了最新在端到端音乐生成方面的进展,借鉴了图像和语言处理的技术。它强调了在音乐创作中对音频片段进行对齐的挑战,并对现有依赖于抽象条件的模型提出了批评。研究提出了一种训练范式,使用了一种非自回归、基于Transformer的架构,使模型能够对音乐背景做出响应。该方法引入了两个条件源,并将问题框架构建为条件生成。
该方法利用了一种非自回归、基于Transformer的音乐生成模型,通过在单独的音频编码模型中引入残差向量量化器。通过将多个音频通道组合成一个单一的序列元素,采用了嵌套的方法。训练过程中采用了掩码程序,并在进行令牌采样期间使用了无分类器的指导,以增强音频背景的对齐。客观度量包括Fr’echet Audio Distance和音乐信息检索描述符距离等,用于评估模型的性能。
研究团队通过使用标准度量和音乐信息检索描述符方法进行生成模型的评估,包括FAD和MIRDD。与真实音频片段的比较表明,该模型在音频质量上达到了与最先进的文本条件模型相媲美的水平,并展现出与音乐背景的强大音乐连贯性。通过参与音乐培训的参与者进行的Mean Opinion Score测试进一步验证了该模型生成逼真音乐结果的能力。MIRDD对生成和真实音频片段的分布对齐进行评估,提供了音乐连贯性和对齐的度量。
总的来说,这项研究提出了一种新的训练方法,使生成模型能够对音乐背景做出响应。该方法引入了一种非自回归语言模型,具有Transformer骨干和两个未经测试的改进:多源无分类器的指导和迭代解码过程中的因果偏差。通过在开源和专有数据集上进行训练,这些模型实现了最先进的音频质量。标准度量和音乐信息检索描述符方法验证了其音频质量。通过Mean Opinion Score测试确认了该模型生成逼真音乐结果的能力。
项目网址:https://julian-parker.github.io/stemgen/
论文网址:https://arxiv.org/abs/2312.08723
阿里所有产品将接入通义千问 钉钉、天猫精灵将率先测试
今日,2023阿里云峰会正式召开,并正式宣布了“通义”家族的最新成员——大模型“通义千问”。会上,阿里云智能CTO周靖人宣布了“通义”家族的最新成员——大模型“通义千问”,并介绍了它的多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等能力。0000雷军2024两会建议:建议加强培养AI人才
雷军今日在全国两会上提出了多项建议,涉及绿色低碳、人工智能、智能驾驶和智能制造等多个领域。他强调了我国在这些领域的发展潜力和面临的挑战,并提出了相应的解决策略。站长网2024-03-04 19:15:200000阿里推ReplaceAnything框架 可通过AI替换万物 马斯克分分钟变厨子!
要点:阿里智能计算研究院提出的ReplaceAnything框架,可以通过AI替换万物,包括服装、证件照背景、人脸、背景等多个维度。该框架引起社区热议,网友表示可以实现虚拟偶像产业化,甚至贴近产品调性替换人脸,降低明星代言费用。ReplaceAnything工具免费试玩,通过上传图片、选择保留对象、输入Prompt或参考图像、点击生成按钮等步骤,可轻松进行替换。站长网2024-01-15 16:04:480000用自己照片被告侵权还遭索赔!摄影师戴建峰起诉视觉中国
10月9日消息,今日,摄影师戴建峰Jeff的星空之旅”发文,称对于视觉中国未经本人许可,非法销售其照片,并向其索赔一事,已向天津市和平区人民法院提起诉讼。在这条微博评论区,许多网友留言刷屏表示支持”,也有网友称支持维权,视觉中国不是第一次干这种事了”。据了解,今年8月,摄影师用自己照片被视觉中国告侵权索赔8万”一事引起网络热议。站长网2023-10-09 22:49:010000谷歌更新的隐私政策引发争议 加大力度使用你的数据来训练 Bard 等人工智能
谷歌上周末更新了其隐私政策,明确表示公司保留了利用用户在网上发布的几乎所有内容来构建其人工智能工具的权利。如果谷歌可以读取你的内容,就假设它们现在属于公司,并预期未来它们将嵌套在聊天机器人内部的某个地方。站长网2023-07-04 14:43:510000