腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐

站长网2024-01-03 11:02:122阅

M2UGen是一款引领潮流的框架，融合了音乐理解和多模态音乐生成任务，旨在助力用户进行音乐艺术创作。通过其强大的功能，M2UGen提供了全方位的音乐生成和编辑体验。

体验地址:https://top.aibase.com/tool/m2ugen

除了可以从文字生成音乐外，它还支持图像、视频和音频生成音乐，并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解，ViT进行图像理解，ViViT进行视频理解，并使用MusicGen/AudioLDM2模型作为音乐生成模型（音乐解码器）。用户可以轻松移除或替换特定乐器，调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。

此外，M2UGen还加入了适配器和LLaMA2模型，使得该模型具备多种能力。

据悉，M2UGen采用了创新的方法，生成了大规模的多模态音乐指导数据集，用于训练模型。这包括MU-LLaMA模型生成的1.2k多小时音乐字幕数据集。模型结合了MU-LLaMA、BLIP图像字幕模型、MPT-7B-Chat模型以及VideoMAE字幕模型，以在各个领域生成对应的指导。

M2UGen展示了其出色的音乐生成、理解和编辑能力，用户可以通过交互式的演示视频和文本生成演示体验到模型的强大潜力。从生成摇滚音乐到对图像进行音乐创作，M2UGen满足了用户的多样化需求。

新鲜AI产品点击了解：https://top.aibase.com/

腾讯发布多模态音乐生成模型M2UGen支持图片视频生成音乐

0002

评论列表

共(0)条

相关推荐

站长资讯
Runway 的AI视频编辑器 Gen-2 开放免费试用
纽约AI初创公司Runway正在开发具有AI功能的视频编辑工具比如Gen-1AI模型中，用户已经能够使用简单的文本提示编辑视频。新的Gen-2功能更进一步加强，它支持从文本创建新视频，该模型现在可以免费试用。据最新报道，RunwayGen-2现在可在iOS的浏览器和智能手机应用程序中使用。
站长网2023-06-08 16:58:27
0000
站长资讯
百川智能发布角色大模型 Baichuan-NPC
百川智能于2024年1月9日发布了角色大模型Baichuan-NPC，并推出了“角色创建平台搜索增强知识库”的定制化解决方案。Baichuan-NPC经过深度优化，在角色知识和对话能力方面表现出色，使模型能够更好地理解上下文对话语义，并根据人物性格进行对话和行动，让角色栩栩如生。
站长网2024-01-09 14:40:39
0000
站长资讯
微软CEO：应该干掉所有独占游戏
快科技6月29日讯，微软和FTC日前的法庭交锋披露了大量Xbox与PlayStation之间的恩怨情仇，其中一个点就是独占作品。在一份法庭证词中，微软CEO纳德拉表示，如果让我来决定，我很乐意消灭一切独占作品，但如今的市场局面被索尼定义和主导者，Xbox作为一个游戏机市场低份额的玩家，没有决定权。虽然这是我们存在的世界，但不是我爱的世界。
站长网2023-06-30 08:40:24
0000
站长资讯
LEDITS++：根据文字编辑图像可对画面进行删除修改
LEDITS是一项引人注目的项目，通过文本提取概念，以惊人的效果编辑图像。这一技术不仅能够在图像中准确提取输入文字的内容，还能够增加或删除相应的概念，同时处理多种概念。这使得图像编辑变得更加灵活和精准。
站长网2023-12-04 12:08:05
0001
站长资讯
Stack Overflow 调查显示开发人员已准备好使用 AI 工具辅助编程
AI工具在编码问答网站StackOverflow的开发者调查中被发现正变得普遍，尽管编码人员对其准确性持怀疑态度。这项调查在该网站正面临处理AI生成内容引发的版主罢工时进行，对其来说正值一个有趣的时刻。调查发现，77%的受访者对在工作流程中使用AI持积极态度，70%的人已经使用或计划在今年使用AI编码工具。
站长网2023-06-16 14:38:59
0000