上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。
Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。
Amphion包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明,还内置了各类神经语音编解码器和评价指标。
尤其是对于那些刚接触生成式AI开发的新手来说,Amphion非常容易上手。
开源地址:https://github.com/open-mmlab/Amphion
论文地址:https://arxiv.org/abs/2312.09911
以下是Amphion包含的各种模型
文本到语音合成
Amphion内置的文本到语音合成模型,涵盖从传统到当前最先进的技术。例如,FastSpeech2使用前馈式Transformer架构实现快速语音合成;
VITS
2利用潜在扩散模型合成高质量语音。融合了条件变分自编码器,可实现端到端的语音合成;Vall-E使用神经编解码器语言模型一键实现零资源的语音合成;NaturalSpeech
开发者可根据业务需求,选择使用不同的模型进行语音合成。
歌声转换
Amphion提供了提取说话人无关表示的各类基于内容的特征,例如,来自WeNet、Whisper和ContentVec的预训练语音特征。
同时实现了多种声学解码器架构,比如基于扩散模型、变压器和变分自编码器的方法。
此外,借助内置的神经语音编解码器合成声波输出,开发者可以灵活配置不同模块,进行不同歌声风格转换。
文本到音频生成
Amphion使用了主流的潜在扩散生成模型。该模型包含一个将频谱映射到潜空间的变分自动编码器,一个接受文本并输出条件的T5编码器,以及一个扩散网络生成最终音频。
用户只需给出音频描述文本,就可以生成语义一致的背景音效。
神经语音编解码器
Amphion提供了丰富的编解码器算法选项,涵盖主流的自动回归模型、流模型、对抗生成模型、扩散模型等。
例如,WaveNet使用膨胀卷积实现高质量语音合成;HiFi-GAN应用多尺度判别器实现高保真的语音重构等,可满足不同业务场景的需求。
性能评估模块
为了帮助开发者全面评估生成语音的质量和性能,Amphion提供了丰富的评估模块。
评估基频建模、能量建模、频谱失真、可懂度等语音维度,可帮助开发者简单直观地比较不同模型的性能。
开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。
本文素材来源Amphion论文,如有侵权请联系删除
苹果 iPhone 15 Pro Max 再次被传将独家配备潜望镜镜头:最高 6 倍光学变焦
根据Twitter账户@URedditor的消息,广为流传的谣言得到了证实,iPhone15ProMax将独家配备升级版带有潜望镜技术的长焦镜头。这位爆料者今天在一条推文中表示,他们最终独立证实了这一信息。站长网2023-05-09 09:29:140003研究发现人们难以区分人工智能和人类艺术,但更喜欢人类创作
**划重点:**1.🧠人工智能创作的艺术和人类创作难以区分,参与者仅有约一半的准确率,但却更偏好人类创作。2.🤔尽管参与者对作品来源不够自信,但他们在情感上更倾向于人类创作,尤其在自我反思、吸引力、怀旧和娱乐等方面。3.🌐研究揭示了生成式人工智能的潜力,尽管参与者难以确定艺术来源,但这为AI在创意领域的应用带来了新的可能性。0000华为nova 12系列推送鸿蒙OS 4.2正式版:系统更流畅
华为近日为nova12系列智能手机带来了鸿蒙OS4.2正式版升级,版本号标注为4.2.0.123。此次更新不仅优化了部分机型的相机性能,更全面提升了系统流畅度,为用户带来更为出色的使用体验。首先,在鸿蒙OS4.2的加持下,华为nova12系列手机的应用启动、任务切换以及滑动操作等多种使用场景都变得更加流畅丝滑,显著提升了操作体验。站长网2024-05-07 10:47:510000谷歌发布新型时间序列预测模型TimesFM 可预测股市、天气等
GoogleResearch最近开发了一种创新的时间序列预测模型,名为TimesFM(TimeSeriesFoundationModel)。这项技术能够利用大量历史数据来学习事件的模式和趋势,进而对新的、未见过的数据做出准确的预测。时间序列预测在商业、金融、科研等多个领域都极为重要,能够帮助人们做出更明智的决策。图源备注:图片由AI生成,图片授权服务商Midjourney模型特点站长网2024-05-13 16:38:550003