NaturalSpeech 3:可克隆音色和感情的语音合成系统
**划重点:**
1. 🌐 创新性的语音合成系统,NaturalSpeech3,采用分解编解码器和扩散模型,在零样本情况下生成自然语音。
2. 🚀 使用神经编解码器进行语音波形分解,包括内容、韵律、音色和声学细节,以实现细致入微的语音建模。
3. 📈 在LibriSpeech和Ravdess基准测试上,NaturalSpeech3在质量、相似度、韵律和可懂度方面均优于现有TTS系统。
随着大规模文本到语音(TTS)模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节),这为生成带来了巨大挑战。
为了解决这一问题,NaturalSpeech3提出了一种创新的TTS系统,采用了新颖的分解扩散模型,以零样本的方式生成自然语音。也就是提供文本和参考音频,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有论文。
语音建模的关键创新点之一是使用神经编解码器,包含分解的向量量化(FVQ),将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外,他们还提出了分解的扩散模型,用于根据相应提示生成每个子空间中的属性。实验证明,NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。
在LibriSpeech基准测试中,NaturalSpeech3的性能明显超越了其他系统。对比结果显示,NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外,通过扩大模型规模和训练数据,NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。
除了LibriSpeech基准测试,NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面,相较于其他系统,NaturalSpeech3的平均MCD显著降低,表现出更好的语音合成效果。
值得注意的是,由于该模型能够以高度相似的说话者模仿真实语音,存在潜在的滥用风险,例如欺骗语音识别或冒充特定说话者。因此,在实验中,假定用户同意成为语音合成的目标说话者。为了防止滥用,研究者呼吁开发强大的合成语音检测模型,并建立一个系统,让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。
项目网址入口:https://top.aibase.com/tool/naturalspeech-3
春晚回应吉祥物被质疑是AI合成:设计师一笔一笔画的
2024年春晚吉祥物“龙辰辰”的设计引起了广泛关注和争议。不少网友质疑其是否为AI合成的结果。针对这些质疑,春晚官方进行了回应,表示“龙辰辰”确实是设计师一笔一笔画的,而不是AI合成的。他们强调了设计师在创造这个形象时所付出的努力和时间,从创意初期的各种形态选择到最终版本的确定,经历了多次修改和投票。000010块钱解决两餐饭,年轻人爱上“剩菜盲盒”
在望京凯德Mall地下一层的一家餐厅里,每晚9点以后,角落的餐台上会规整地摆上五包封口的袋子,里面的食物原价在100~110元不等,但到了9点以后,它们被统一定价为39.9元,会在一小时内完成售卖,并被起了一个时髦的名字——剩菜盲盒。“剩菜盲盒”里的剩菜不是客人吃剩下的残羹冷炙,而是未出过后厨的餐品,或者是烘焙糕点、咖啡、寿司等简餐食物。站长网2023-05-24 14:01:400000AITO问界全系列2月交付21142辆新车 蝉联新势力榜首
根据鸿蒙智行的官方公告,AITO问界全系列在刚结束的2月份共交付了21142辆新车,稳固了新势力月度销量的首位。在这些销量中,新M7的贡献尤为突出,交付了18479辆,而余下的部分则由M9和M5填补。站长网2024-03-01 14:57:350000新茶饮2023:茶底革命扯掉旧王冠
新茶饮永不眠。喜茶和奈雪的巨头之争未休,今年又迎来了新王。根据第三方数据显示,截至11月份国内市场上霸王茶姬以2758的门店数据超越奈雪;再放眼全球市场,刚刚在12月份开出3000家门店的霸王茶姬,甚至和喜茶也不相上下。站长网2023-12-16 10:03:380000日本希望 AI 促进经济增长 倾向于采用比欧盟更宽松的人工智能法规
根据一位了解相关讨论的官员透露,日本在人工智能(AI)使用方面的规定倾向于比欧盟更为宽松。日本希望利用这项技术促进经济增长,并在先进芯片领域成为领导者。这位官员表示,到年底,日本计划制定一种可能更接近美国态度而非欧盟所倡导的严格规则的AI方法。日本的宽松态度可能削弱欧盟建立其规则作为全球基准的努力,其中包括要求企业公开用于训练生成文本和图形等内容的AI系统的版权材料。站长网2023-07-04 14:43:510000