开源音频模型Stable Audio Open,文本生成47秒高清音效
站长网2024-06-06 17:42:593阅
6月6日,著名开源大模型平台Stability.ai在官网宣布,开源最新文生音频模型Stable Audio Open。
用户通过文本就能生成最多47秒,钢琴、笛子、鼓点、模拟人声等不同类型的44.1kHz音效。
值得一提的是,Stable Audio Open支持数据微调,歌手、音乐人可以让其生成基于自己的音乐数据,例如,架子鼓手可以根据自己的鼓点来进行微调。
开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
在线demo:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero

根据Stability.ai介绍,Stable Audio Open使用了486,492个录音训练数据,其中472,618个来自Freesound,13874个来自免费音乐档案馆,并且所有音频文件均根据 CC0、CC BY或CC Sampling 获得了商业许可。
就是说通过Stable Audio Open生成的音效无需担心商业化问题,不会受到法律方面的追究。
「AIGC开放社区」根据其提供的在线demo体验了一下,在文本语义理解、生成音效等方面还是相当优秀。
需要注意的是,目前只支持英文提示词,其他任何语言都不行,即便你使用了识别效果也是相当的差。
在生成的过程中,用户可以对时间、扩散步数和CFG进行详细控制,以达到更好的效果。例如,一首非常舒适抒情的钢琴曲。

此外,Stable Audio Open目前只能用于学术研究,还无法商业化。
0003
评论列表
共(0)条相关推荐
首个开源中文金融大模型来了!解释授信额度、计算收益率、决策参考样样通,来自度小满|附下载
金融行业正迎来大模型时代。近日,度小满正式发布千亿级中文对话大模型轩辕,集中文、金融、开源特色于一身。基于BLOOM-176B研发的轩辕大模型,在金融场景中的任务评测中,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。站长网2023-05-27 14:48:320000AI在线视频剪辑工具Opus Clip 长视频一键变高质量短视频
OpusClip是一款生成式人工智能视频工具,可以将长视频一键转换成高质量短视频,让您可以在TikTok、YouTubeShorts和Reels等平台上分享,以增加社交媒体的影响力。体验地址:https://www.opus.pro/not-available核心功能:站长网2023-08-21 16:18:420008人工智能让 Google 地图变得越来越像「搜索引擎」
站长之家(ChinaZ.com)10月27日消息:Google正在为其地图服务增加一系列新的人工智能(AI)驱动功能,包括更沉浸式的导航、更易于遵循的驾驶指示和更好组织的搜索结果。最终效果将让许多用户感觉到Google地图的体验与Google搜索相似。站长网2023-10-27 20:45:530001小红书2天新增超70万:义乌老板也借机来揽客了
快科技1月15日消息,近日,据媒体报道,大量国外TikTok用户涌入了小红书注册账号并分享内容。一位接近小红书内部的人士透露,仅两天时间该平台新增70余万用户,但小红书官方并未回应此事。另外,据应用数据研究公司SensorTower估计,本周小红书在美国下载量同比增长超200%。与此同时,小红书博主们也都没闲着,都开始借机利用平台泼天流量,玩梗试图揽客”。其中,不乏义乌老板的身影。站长网2025-01-15 22:14:180000工程师将 ChatGPT 和机器狗 Spot 结合起来 以增强沟通能力
在人工智能和机器人越来越流行的世界里,看到工程师如何推动界限,找到使这些机器更有用的新方式,总是非常令人兴奋的。这正是Santiago通过将ChatGPT与BostonDynamics的机器狗Spot结合起来所做的。乍一看,机器狗使用AI模型与人类进行通信可能看起来像是从科幻电影中来的,然而,这种技术的创新实际上是为了使机器狗执行复杂任务更高效。站长网2023-04-27 14:18:490000