NaturalSpeech 3:可克隆音色和感情的语音合成系统
**划重点:**
1. 🌐 创新性的语音合成系统,NaturalSpeech3,采用分解编解码器和扩散模型,在零样本情况下生成自然语音。
2. 🚀 使用神经编解码器进行语音波形分解,包括内容、韵律、音色和声学细节,以实现细致入微的语音建模。
3. 📈 在LibriSpeech和Ravdess基准测试上,NaturalSpeech3在质量、相似度、韵律和可懂度方面均优于现有TTS系统。
随着大规模文本到语音(TTS)模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节),这为生成带来了巨大挑战。
为了解决这一问题,NaturalSpeech3提出了一种创新的TTS系统,采用了新颖的分解扩散模型,以零样本的方式生成自然语音。也就是提供文本和参考音频,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有论文。
语音建模的关键创新点之一是使用神经编解码器,包含分解的向量量化(FVQ),将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外,他们还提出了分解的扩散模型,用于根据相应提示生成每个子空间中的属性。实验证明,NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。
在LibriSpeech基准测试中,NaturalSpeech3的性能明显超越了其他系统。对比结果显示,NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外,通过扩大模型规模和训练数据,NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。
除了LibriSpeech基准测试,NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面,相较于其他系统,NaturalSpeech3的平均MCD显著降低,表现出更好的语音合成效果。
值得注意的是,由于该模型能够以高度相似的说话者模仿真实语音,存在潜在的滥用风险,例如欺骗语音识别或冒充特定说话者。因此,在实验中,假定用户同意成为语音合成的目标说话者。为了防止滥用,研究者呼吁开发强大的合成语音检测模型,并建立一个系统,让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。
项目网址入口:https://top.aibase.com/tool/naturalspeech-3
消保委:强制收取外卖打包费损害消费者权益
上海市消保委今日发布观点称,在当前的外卖市场中,强制收取外卖打包费影响了公平竞争,也损害了消费者的权益。他们认为外卖产品的价格应该包含基本的打包费用,而单独收取打包费是对消费者进行了二次收费,违背了公平交易原则。将外卖打包费作为价外收费也使消费者难以做出准确的价格比较,模糊了价格透明度,损害了消费者的知情权和选择权。站长网2024-03-06 14:20:420001Canalys预测:2024年全球个人电脑市场将增长8% 具备AI功能个人电脑将占约19%市场份额
划重点:1.🌐全球个人电脑市场连续七个季度下跌后预计将迎来5%的复苏,2024年全年出货量预计将增长8%。2.🔄复苏得益于节日旺季、宏观经济改善以及Windows更新周期,同时具备AI功能和采用Arm架构电脑的兴起也是增长的主要因素。站长网2023-12-05 09:30:190000腾讯视频上线JUMP会员:学生包年148元 最高可享8大权益
快科技5月13日消息,今日,腾讯视频宣布全新JUMP会员正式上线,官方表示这是年轻人的专属套餐。同时,腾讯视频宣布原学生会员”升级为JUMP学生会员”。据了解,首期上线JUMP卡套餐和JUMP学生卡套餐,包含观看、互动、生活、娱乐等权益福利,不同套餐包含的权益不同。价格上,JUMP卡包年199元、分期月付25元;JUMP学生卡包年148元、分期月付15月。站长网2024-05-13 13:51:320000拼多多,藏着水果版中国地图
越来越多人开始在拼多多买水果。在发现这个现象后,我询问他们同一个问题:“那你收到过烂掉的吗?”几乎所有频繁下单的人都告诉我,收到过。他们在拼多多买全国各地的水果,偶尔收到烂掉的,但依然会继续在拼多多买全国各地的水果。他们中,有的是公司白领,有的甚至自己开公司,便宜这个答案,显然不能解释一切。于是我开始认真探寻这个问题的答案:买到过烂水果的用户,为什么还愿意留在拼多多?水果蔬菜里的中国地理站长网2024-06-17 19:05:510005腾讯云:自研视频编解码芯片“沧海”已量产并投用数万片
今日,腾讯云公布了自研芯片“沧海”的进展。腾讯表示,自研视频编解码芯片“沧海”已经量产并投用数万片。在云游戏、直点播等场景中,沧海目前已面向腾讯自研业务和公有云客户提供服务。据介绍,沧海芯片着力于解决视频编解码中高画质、低延迟、低成本问题。站长网2023-04-17 14:35:280000