文本直接生成20多种背景音乐,免费版Stable Audio来了!
9月14日,著名开源平台Stability AI在官网发布了,音频生成式AI产品Stable Audio。(免费使用地址:https://www.stableaudio.com/generate)
用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。
例如,输入迪斯科、鼓机、合成器、贝司、钢琴、吉他、欢快、115BPM等关键词,就能生成背景音乐。
Disco,DrivingDrumMachine,Synthesizer,Bass,Piano,Guit,AIGC开放社区,47秒
目前,Stable Audio有免费和付费两个版本:免费版,每月可生成20个音乐,最大时长45秒,不能用于商业;付费版,每月11.99美元(约87元),可生成500个音乐,最大时长90秒,可用于商业。
如果你不想付费可以多注册几个账号,可以通过AU(一种音频编辑器)或PR将生成的音乐拼接起来可达到同样效果。
Stable Audio简单介绍
在过去几年,扩散模型在图像、视频、音频等领域获得了飞速发展,可显著提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常会生成固定大小的内容。
例如,音频扩散模型可能在30秒的音频片段上进行训练,并且只能生成30秒的音频片段。为了打破这个技术瓶颈Stable Audio使用了一种更先进的模型。
这是一种基于文本元数据以及音频文件持续时间,和开始时间调整的音频潜在扩散模型,允许对生成音频的内容和长度进行控制。这种额外的时间条件使用户能够生成指定长度的音频。
与原始音频相比,使用大幅度下采样的音频潜在表示可以实现更快的推理效率。通过最新稳定音频模型,Stable Audio能在不到一秒的时间内,使用NVIDIA A100GPU渲染出95秒的立体声音频,采样率为44.1kHz。
训练数据方面,Stable Audio使用了一个超过80万个音频文件组成的数据集,包含音乐、音效以及各种乐器。
该数据集总计超过1.95万小时的音频,同时与音乐服务商AudioSparx进行合作,所以,生成的音乐可以用于商业化。
潜在扩散模型
Stable Audio所使用的潜在扩散模型(Latent Diffusion Models)是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用。这是一种结合了自动编码器和扩散模型的方法。
自动编码器首先被用来学习输入数据(例如图像或音频)的低维潜在表示。这个潜在表示捕捉了输入数据的重要特征,并且可以被用来重构原始数据。
然后,扩散模型在这个潜在空间中进行训练,逐步改变潜在变量,从而生成新的数据。
这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行,而不是在原始数据空间中进行,因此可以更高效地生成新的数据。
此外,通过在潜在空间中进行操作,这种模型还可以提供对生成数据的更好控制。例如,可以通过操纵潜在变量来改变生成数据的某些特性,或者通过对潜在变量施加约束来引导数据生成过程。
Stable Audio使用和案例展示
「AIGC开放社区」体验了一下免费版Stable Audio,使用方法与ChatGPT差不多直接输入文本提示即可。提示内容包括细节、心态、乐器和节拍四大类。
需要注意的是,如果想生成的音乐更细腻、有律动性和节奏,输入的文本也需要更细化。也就是说,你输入的文本提示越多,那么生成的效果就约好。
Stable Audio使用界面
使用AI语言模型有助于诊断精神分裂症
文章概要:-科学家开发了基于AI语言模型的新工具,可以特征化诊断有精神分裂症的患者的语音中的细微特征。-研究目的是了解自动语言分析如何帮助医生和科学家诊断和评估精神疾病。-研究人员认为语言可预测性的差异可能与大脑学习和存储“认知地图”的方式有关。站长网2023-10-11 17:16:380000躺赚的直播切片生意,或将要被AI降维打击了
如果想要再网络上赚钱,“直播切片”这个词想必就不会感到陌生,如今它甚至已经成为了网赚的一个新方向。做直播切片月入上万的宣传语,在网络中更是一搜一大把,甚至于抖音的头部主播“疯狂小杨哥”更是搞起了“众小二”App,直接将直播切片工业化。不过如今非常红火的直播切片,很可能马上就要被AI降维打击了。站长网2023-09-04 14:08:310000Google Slide 逐步开放 Duet AI 图像生成功能测试
上月初,GoogleWorkspace宣布将开始对Slides中的DuetAI图像生成功能进行公开测试,目前已得到更广泛的应用。站长网2023-07-05 19:09:130002iPhone15Pro满意度下降 续航差成iPhone15Pro吐槽焦点
最近,市场调查机构PerfectRec通过分析谷歌上70多万条iPhone15系列的评价,揭示了一个令人关注的现象:iPhone15Pro的满意度在四款机型中最低,而且这一满意度还在持续下滑。站长网2024-02-01 11:47:080000摩根大通:越南处于新兴东南亚人工智能发展的“前沿”
划重点:1.📈摩根大通分析:越南对人工智能有更长远的展望。2.🇲🇾马来西亚和🇵🇭菲律宾相对越南AI发展处于较低水平。3.🌐东南亚地区的AI发展前景备受关注。站长网2023-10-30 16:22:150000