NaturalSpeech 3:可克隆音色和感情的语音合成系统
**划重点:**
1. 🌐 创新性的语音合成系统,NaturalSpeech3,采用分解编解码器和扩散模型,在零样本情况下生成自然语音。
2. 🚀 使用神经编解码器进行语音波形分解,包括内容、韵律、音色和声学细节,以实现细致入微的语音建模。
3. 📈 在LibriSpeech和Ravdess基准测试上,NaturalSpeech3在质量、相似度、韵律和可懂度方面均优于现有TTS系统。
随着大规模文本到语音(TTS)模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节),这为生成带来了巨大挑战。
为了解决这一问题,NaturalSpeech3提出了一种创新的TTS系统,采用了新颖的分解扩散模型,以零样本的方式生成自然语音。也就是提供文本和参考音频,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有论文。
语音建模的关键创新点之一是使用神经编解码器,包含分解的向量量化(FVQ),将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外,他们还提出了分解的扩散模型,用于根据相应提示生成每个子空间中的属性。实验证明,NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。
在LibriSpeech基准测试中,NaturalSpeech3的性能明显超越了其他系统。对比结果显示,NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外,通过扩大模型规模和训练数据,NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。
除了LibriSpeech基准测试,NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面,相较于其他系统,NaturalSpeech3的平均MCD显著降低,表现出更好的语音合成效果。
值得注意的是,由于该模型能够以高度相似的说话者模仿真实语音,存在潜在的滥用风险,例如欺骗语音识别或冒充特定说话者。因此,在实验中,假定用户同意成为语音合成的目标说话者。为了防止滥用,研究者呼吁开发强大的合成语音检测模型,并建立一个系统,让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。
项目网址入口:https://top.aibase.com/tool/naturalspeech-3
GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
要点:最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。MMMU包含六个学科的30个科目,涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域,共有1.15万个多模态问题,考察了感知、知识和推理等基本技能,为评估专家级AGI提供了全面而复杂的任务。站长网2023-12-01 14:28:560000AI视野:百度千帆大模型适配Falcon-180B;OpenAI将举行首届开发者大会;微软测试新版画图工具
>>>>>>大模型动态<<<<<<百度智能云千帆大模型平台适配开源大模型Falcon-180B百度智能云千帆大模型平台宣布率先适配开源大模型Falcon-180B,提供全流程工具链和开发环境,帮助企业和开发者体验应用这一最新大模型能力。要点:1、百度智能云千帆大模型平台适配开源大模型Falcon-180B站长网2023-09-08 15:05:130000健身平台Keep登陆港股上市 首日高开近5%
今日,运动科技公司keep正式在港股上市,首日高开近5%,报30.3港元。根据此前公司公告,Keep计划全球发售1083.9万股,其中国际发售975.5万股,占比九成;公开发售108.4万股,另有15%的超额配股权。IPO股票发行价为每股28.92港元,将净筹资1.92亿港元。站长网2023-07-12 17:26:060001扎克伯格:Meta对人工智能的昂贵押注已经显示出回报的迹象
据FinancialTimes报道,马克·扎克伯格表示,利用新兴技术对信息流和推荐进行个性化的做法“已经开始见效”。在美股周三收盘后,Meta的股价上涨,因为该公司报告了自2021年以来的首次两位数收入增长,首席执行官马克·扎克伯格表示,该公司在人工智能方面的昂贵赌注已经显示出了一些迹象。站长网2023-07-27 09:59:050000黄仁勋预言:AI革命将会创造100万亿美元价值!
NVIDIAAI峰会:技术革命的非凡潜力在近日于日本举行的NVIDIA2024AI峰会上,NVIDIA首席执行官黄仁勋与软银首席执行官孙正义参与了一场深入对话,探讨了人工智能(AI)技术革命的独特影响和深远意义。黄仁勋强调了AI的变革性力量,认为它将创造的价值规模远远超乎想象,达到百万亿美元级。0000