微软推出语音合成模型 NaturalSpeech2
站长网2023-07-28 10:55:032阅
微软最近推出了一个名为NaturalSpeech2的语音模型。这个模型采用了“潜在扩散”式设计,在零样本语音合成方面表现非常出色。微软声称这个模型提供了“商业级”的语音/歌唱解决方案,可以为用户提供高质量、多样化的语音合成体验。
与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音,从而生成更完整的语音片段。这样做的优点是不会产生“缺乏感情”的“棒读”现象,即一字一顿地讲话。

实验结果表明,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律非常接近,并且在LibriTTS和VCTK测试集上的自然度(以CMOS为度量)与真人语音难以区分。
因此,NaturalSpeech2是一个非常强大的语音合成工具,可以广泛应用于各种应用,如语音助手、智能客服、虚拟歌手等。它的推出将推动语音合成技术的发展,为用户提供更加智能、自然的语音交互体验。
论文链接:
https://arxiv.org/abs/2304.09116
项目演示:
https://speechresearch.github.io/naturalspeech2/
0002
评论列表
共(0)条相关推荐
快手电商春节放大招: “好友送礼”功能上线,年货好礼一键送达!
站长之家(ChinaZ.com)1月27日消息:春节将至,快手电商再出新招,正式上线**“好友送礼”功能,为用户提供更加便捷、温馨的节日送礼体验。用户可以通过快手电商在线挑选年货、礼品,并一键赠送给指定好友,让祝福与心意快速传递。参与“春节不打烊”活动的商品,还可享受48小时内极速发货**的保障,确保节日好礼准时送达。0000Meta发布高效SAM模型EffcientSAM 速度提升20倍!
继万物皆可分割的SAM模型后,Meta又发布了更高效的EfficientSAM模型。EfficientSAM是一项创新性的工作,旨在降低SAM模型的计算复杂性,使其在更广泛的实际应用中表现出色。该模型通过引入掩码图像预训练(SAMI)成功降低了SAM模型的计算复杂性,实现了速度提升20倍、参数减少20倍,同时性能仅损失约1.5mIoU。站长网2023-12-08 14:57:160003美图设计室上线“AI商拍” 支持AI模特试衣、服装换色等功能
美图设计室正式面向生产力场景推出“美图设计室·AI商拍”,一站式解决电商用户商业拍摄需求。“美图设计室·AI商拍”聚合了美图设计室自2023年4月以来相继上线的多项功能,包括“AI商品图”、“AI模特试衣”,另外与美图设计室的“智能抠图”、“服装换色”、“电商海报”等辅助功能配合,为电商拍摄与设计工作提供一站式解决方案。站长网2023-12-14 18:03:160000AI风投基金OpenAI Startup Fund额外筹集500万美元资金
划重点:⭐️OpenAIStartupFund融资额外5百万美元⭐️资金来自两位投资者,转入特殊目的实体OpenAIStartupFundSPVIII,L.P.⭐️OpenAIStartupFund已向至少16家初创公司投资,包括Harvey、AmbianceHealthcare和人形机器人公司FigureAI。站长网2024-05-14 10:19:550000QQ启动暑期未成年人网络环境整治 加强短视频、直播场景治理
QQ安全中心宣布启动2024年暑期未成年人网络环境整治专项行动,重点聚焦以下几个方面问题,进一步整治各类有害未成年人的违规行为、清理网络有害信息:1、加强短视频、直播场景有害及不良信息治理工作:严厉打击经典动画、儿歌不良“二次包装”,摆拍校园霸凌,利用“网红儿童”牟利,变相诱导胁迫未成年人参与直播等行为;站长网2024-07-15 08:44:080000