Mustango:结合扩散模型，提高文本生成音乐质量

站长网2023-11-22 17:19:561阅

划重点:

🔸 研究团队提出了一个名为 Mustango 的解决方案，扩展了 Tango 文本到音频模型，旨在通过丰富的说明来控制生成的音乐。

🔸 Mustango 利用音乐领域的知识，结合扩散模型，实现了从文本到音乐的转换。

🔸 研究人员通过广泛的实验表明，Mustango 在音乐质量和可控性方面取得了最新的成果。

在文本到音乐合成领域，生成内容的质量一直在提高，但对音乐方面的可控性仍未得到探索。新加坡科技与设计大学和伦敦玛丽女王大学的研究人员提出了一个名为 Mustango 的解决方案，它扩展了 Tango 文本到音频模型，旨在通过丰富的说明来控制生成的音乐，这些说明包含与和弦、节拍、速度和键相关的具体指令。

研究人员将 Mustango 介绍为一种基于扩散模型的音乐领域知识启发的文本到音乐系统。他们强调了从扩散模型直接生成音乐所面临的独特挑战，强调了在与条件文本对齐和音乐性之间取得平衡的需求。Mustango 使音乐家、制作人和音效设计师能够根据特定条件（如和弦进行、速度和键选择）创建音乐片段。

作为 Mustango 的一部分，研究人员提出了 MuNet，即音乐领域知识启发的 UNet 子模块。MuNet 将音乐专用功能与从文本提示中预测的功能集成到扩散去噪过程中。为了克服现有带有音乐和文本说明的开放数据集的有限可用性，研究人员引入了一种新颖的数据增强方法。该方法涉及改变音乐音频的和谐、节奏和动态方面，并使用音乐信息检索方法提取音乐特征，然后将这些特征附加到现有的文本描述中，从而得到 MusicBench 数据集。

MusicBench 数据集包含超过52，000个实例，通过将节拍、下拍位置、基本和弦进行、键和速度添加到原始文本描述中，丰富了数据集。研究人员进行了广泛的实验，证明了 Mustango 在音乐质量方面达到了最新的水平。他们强调了 Mustango 通过音乐专用文本提示的可控性，展示了在捕捉多个数据集中所需的和弦、节拍、键和速度方面的出色性能。他们评估了这些预测器在没有控制句子的情况下的适应能力，并观察到 Mustango 在这种情况下的表现优于 Tango，表明控制预测器不会影响性能。

实验包括与 Tango 和 Mustango 的变体等基线的比较，证明了所提出的数据增强方法在提高性能方面的有效性。从头开始训练的 Mustango 被认为是表现最好的模型，在音频质量、节奏存在和谐等方面超过了 Tango 和其他变体。Mustango 拥有14亿个参数，比 Tango 多得多。

研究人员将 Mustango 作为文本到音乐合成领域的重要进展。他们解决了现有系统中的可控性差距，并通过广泛的实验证明了他们提出的方法的有效性。Mustango 不仅实现了最新的音乐质量，还提供了增强的可控性，为该领域的发展做出了宝贵的贡献。研究人员发布了 MusicBench 数据集，为未来的文本到音乐合成研究提供了资源。

项目网址:https://github.com/amaai-lab/mustango

https://huggingface.co/spaces/declare-lab/mustango

论文网址:https://arxiv.org/abs/2311.08355v1

Mustango结合扩散模型提高文本生成音乐质量

0001

评论列表

共(0)条

相关推荐

小红书，出海靠进口
小红书自己大概也没想到，出海这事突然就有了进展。就在不久前，坊间还在热议字节复制的海外版“小红书”——lenmon8在北美进入免费版前10，即将在海外再造一个小红书。结果就在昨晚，大量的北美用户开始涌入小红书，仅仅3个小时，小红书的美区排行榜的下载量就从200之外空降第一。这个意外的始作俑者同样是字节。
站长网站长资讯2025-01-15 14:12:07
0000
站长资讯
世界最大广告公司 CEO 成为深度伪造诈骗目标
划重点:📌世界最大广告集团WPP的CEOMarkRead成为深度伪造诈骗的目标。📌诈骗分子使用人工智能声音克隆技术，通过一个虚假的WhatsApp账号和YouTube视频片段伪装成MarkRead。📌深度伪造技术的使用已经在企界迅速增加，企业需要加强警惕以防范此类攻击。
站长网2024-05-13 11:17:59
0000
把用户当“流量”，还是当“人”看？
聊个有意思的话题。今天的商业世界里，看待“用户”，存在两种核心逻辑，背后也是两种不同的价值主张。一种是把“用户”当人看，另一种是把“用户”当冰冷的数据看。二者不存在绝对好坏，但有其不同的适用土壤。有时候，你做的生意的属性，决定了你应该用什么视角来看待你与用户之间的关系。比如，搜索引擎、游戏等，核心逻辑一定是要把用户当成流量和数据来看待的。
站长网站长资讯2023-07-05 10:22:14
0001
小米15 Pro外观公布：龙晶玻璃2.0 采用全等深四微曲屏
小米官方今日同时公布了小米15Pro的外观设计，这款手机的正面配备了一块全等深四微曲屏幕，并覆盖了小米龙晶玻璃2.0，提供了更好的耐磨损性能。手机的中框采用了四曲包裹式金属材质，背部则采用了陶瓷镜头DECO设计，整体配重比接近50:50，重量为213g，厚度薄至8.35mm，确保了舒适的握持感。
站长网站长资讯2024-10-24 17:00:37
0000
站长资讯
宁德时代营收首次突破4000亿元：净利润首次突破400亿豪气分红超220亿
快科技3月16日消息，全球动力电池龙头宁德时代昨晚披露了2023年年报。2023年营业收入达到4009.17亿元，同比增长22.01%。归母净利润则达到441.21亿元，同比增长43.58%。从收入的产品构成来看，共分为四大部分：1、动力电池系统收入2852.5亿元，占比71.15%，同比增加20.57%2、储能电池系统收入599亿元，占比14.94%，同比增加33.17%
站长网2024-03-16 11:18:37
0000