微软推出语音合成模型NaturalSpeech 2 只需几秒提示语音即可定制语音
站长网2023-07-27 14:22:090阅
微软 AI 团队推出 NaturalSpeech2,一款采用潜在扩散模型的先进文本到语音系统,具备强大的零样本语音合成和增强表达力的韵律功能。该系统可用于语音合成和唱歌合成,为用户提供高质量、多样化的语音合成体验。
NaturalSpeech2是一种 TTS 系统,通过潜在扩散模型生成富有表达力的韵律、良好的韧性,并且最关键的是具备强大的零样本能力,能够进行语音合成。

项目地址:https://speechresearch.github.io/naturalspeech2/
与传统的 TTS 系统不同,NaturalSpeech2使用连续向量而不是离散的标记来表示语音,从而提供了更准确的语音重构。
NaturalSpeech2通过使用大规模数据集进行训练,展示了其在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。
实验结果表明,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律更加相似,并且在 LibriTTS 和 VCTK 测试集上的自然度(以 CMOS 为度量)与真实语音相当或更好。
它还可以通过一个简短的唱歌提示或仅有的语音提示来生成具有新音色的唱歌声,实现了真正的零样本唱歌合成。
0000
评论列表
共(0)条相关推荐
小米高管内部讲话曝光 称小米汽车目标比肩保时捷特斯拉
据新浪科技报道,小米汽车部在日前的一场内部活动上,向员工们透露了他们的雄心壮志。据小米汽车副总裁于立国在内部讲话中表示,小米汽车部的目标是打造一台可以比肩保时捷和特斯拉的DreamCar。小米汽车部成立近三年来,目前已有3700名员工,他们来自五湖四海,但都怀揣着共同的梦想,致力于实现这一目标。站长网2023-12-27 18:08:170000Adobe 发布 VideoGigaGAN 超分辨率视频模型
划重点:⭐Adobe和研究人员合作推出VideoGigaGAN,兼顾帧率连贯性和细节丰富的超分辨率视频模型。⭐VideoGigaGAN基于GigaGAN模型开发,通过添加时序卷积、自注意力层和光流引导模块,解决了超分辨率视频模型的时间连贯性和细节丰富性问题。站长网2024-06-04 10:50:550001生成式人工智能能够更精准地预测和识别 YouTube 等平台上的内容环境
越来越多的媒体都开始使用生成AI技术。最近,数字视频广告公司Pixability利用ChatGPT改进品牌适宜性标准并提高广告商在YouTube和其他数字视频平台投放广告的信心,同时也将流程大大加速。站长网2023-05-02 10:18:470000最赚钱的编程语言!Java 垫底,Rust 排第二,年薪最高可达 75 万美元
目前全球有200多种编程语言可供选择,因此确定哪些语言在2023年能为开发人员提供最高薪酬至关重要。从2022年10月1日到2023年10月1日(整1年),DevJobsScanner分析了来自世界各地的1000多万个开发职位,来帮助我们了解市场最热门、薪酬最高的编程语言。(注:为保证结果的一致性和代表性,本研究中主要关注来自美国的职位,大幅减少潜在的数据偏差。)站长网2023-11-18 14:41:080000余承东否认“任正非下令禁止说”:谣言
快科技4月2日消息,遥遥领先”是余承东在华为发布会上常用的词汇,形容竞争对手与自家产品的差距。今日,词条任正非据传下禁令一句遥遥领先罚款一万”突然登上微博热搜,引起网友热议。事情起因是有媒体报道钛媒体创始人赵何娟发文称,据可靠消息说,任正非在华为内部给余承东下了禁令”,每再提一句遥遥领先”罚款一万。对此,元新闻”向余承东求证,余承东在微信上回复称系谣言。站长网2024-04-08 12:44:550002