音乐生成深度学习模型StemGen:听取音乐上下文生成音乐作品
**划重点:**
1. 🤖 革新性方法:研究采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,突破传统抽象条件的模型。
2. 🌐 模型效果验证:来自SAMI和字节跳动的研究人员引入非自回归、基于Transformer的模型,并通过标准指标和主观测试证明其音频质量和音乐与上下文的强大协调性。
3. 🚀 技术进步:研究结合图像和语言处理技术,以端到端的方式推动深度学习音频生成,并提出通过非自回归、基于Transformer的架构训练模型的新范例。
字节跳动AI研究团队最近推出了一项名为StemGen的音乐生成项目,该项目采用了一种创新的深度学习方法,旨在让模型能够模仿现有音乐中的模式和结构,并以一种非常前卫的方式回应音乐背景。与常用的深度学习技术(如RNN、LSTM网络和Transformer模型)不同,StemGen采用了一种非自回归、基于Transformer的模型,强调对音乐背景的听取和响应,而不是依赖于抽象的条件。
研究中,来自SAMI和字节跳动公司的研究人员引入了一种非自回归、基于Transformer的模型,该模型通过利用MusicGen模型的公开可用的Encodec检查点来监听和响应音乐背景。通过使用标准度量和音乐信息检索描述符方法,包括Frechet Audio Distance(FAD)和Music Information Retrieval Descriptor Distance(MIRDD),研究团队评估了模型的性能。结果显示,该模型在音频质量和与音乐背景的稳健对齐方面表现出竞争性,经过客观度量和主观MOS测试的验证。
这项研究强调了最新在端到端音乐生成方面的进展,借鉴了图像和语言处理的技术。它强调了在音乐创作中对音频片段进行对齐的挑战,并对现有依赖于抽象条件的模型提出了批评。研究提出了一种训练范式,使用了一种非自回归、基于Transformer的架构,使模型能够对音乐背景做出响应。该方法引入了两个条件源,并将问题框架构建为条件生成。
该方法利用了一种非自回归、基于Transformer的音乐生成模型,通过在单独的音频编码模型中引入残差向量量化器。通过将多个音频通道组合成一个单一的序列元素,采用了嵌套的方法。训练过程中采用了掩码程序,并在进行令牌采样期间使用了无分类器的指导,以增强音频背景的对齐。客观度量包括Fr’echet Audio Distance和音乐信息检索描述符距离等,用于评估模型的性能。
研究团队通过使用标准度量和音乐信息检索描述符方法进行生成模型的评估,包括FAD和MIRDD。与真实音频片段的比较表明,该模型在音频质量上达到了与最先进的文本条件模型相媲美的水平,并展现出与音乐背景的强大音乐连贯性。通过参与音乐培训的参与者进行的Mean Opinion Score测试进一步验证了该模型生成逼真音乐结果的能力。MIRDD对生成和真实音频片段的分布对齐进行评估,提供了音乐连贯性和对齐的度量。
总的来说,这项研究提出了一种新的训练方法,使生成模型能够对音乐背景做出响应。该方法引入了一种非自回归语言模型,具有Transformer骨干和两个未经测试的改进:多源无分类器的指导和迭代解码过程中的因果偏差。通过在开源和专有数据集上进行训练,这些模型实现了最先进的音频质量。标准度量和音乐信息检索描述符方法验证了其音频质量。通过Mean Opinion Score测试确认了该模型生成逼真音乐结果的能力。
项目网址:https://julian-parker.github.io/stemgen/
论文网址:https://arxiv.org/abs/2312.08723
OpenAI开发全新AI人机对话技术 支持识别物体和图像
据TheInformation消息,OpenAI正筹备展示一种革命性的人机对话技术。据可靠消息,这一技术将结合声音和文本,不仅能与用户进行流畅的交流,还具备识别物体和图像的能力,为用户带来前所未有的交互体验。ChatGPT的开发团队已经向部分客户展示了这一技术的部分功能,其中包括一项引人注目的特点:其逻辑推理能力远超现有产品。这一进步预示着AI在理解和处理复杂信息方面的能力将得到显著提升。站长网2024-05-11 11:37:5200002024年私域运营8大趋势!
2024年来了,新的一年私域要怎么做?还有哪些红利场景值得品牌企业重头投入?服务商竞争在2024年会发生什么变化?接下来品牌需要怎样的服务商?服务商还有哪些风险需要规避?针对以上2024年的私域运营趋势,我们在过去一段时间里,持续深聊了几位行业专家,并将他们的答案汇总在一起给你参考,希望对你有帮助,如下,enjoy:趋势一公域获客链路变通畅最好的方式是买广告(小裂变创始人张东晴)站长网2024-02-17 10:08:210000Adobe回应新隐私服务条款问题:不会分析本地存储内容
划重点:⭐️Adobe因新的隐私服务条款语言引起公众愤怒⭐️用户对Adobe可能对其内容进行监控和AI训练表示担忧⭐️Adobe回应称不会访问用户设备上存储的内容,但会分析上传至其云端服务的内容近期,Adobe公司推出了新的“服务条款”(ToS)语言,引发了部分用户和AdobeStock供稿者的不满。新的ToS要求用户在继续使用其应用程序之前同意该条款。站长网2024-06-08 12:44:010000贾跃亭谈金钱观:钱对我来说不重要 山村长大对钱没有概念
在最新发布的视频中,贾跃亭分享了自己的金钱观,他坦言:“金钱对我来说不重要。”对贾跃亭而言,能够投身于让自己热血沸腾的事业才是至关重要的。他自认为是一个由使命感驱动的梦想家,而非单纯追求利益的商人或追随者。这种身份认同在他的重大决策中起到了决定性的作用。0000理想汽车:4月第一周周销量达4177辆 远超其他新势力
据理想汽车官方公布数据,2023年4月第一周(4.03-4.09),理想汽车周销量达到4177辆,远超其他新势力品牌,再次蝉联中国市场新势力品牌周销量冠军。同时,理想汽车也继续保持中国市场豪华品牌销量前五,依旧是榜单中排名最高的中国品牌,也超越了BBA以外的其他传统豪华品牌。站长网2023-04-13 08:54:170000