微软推出语音合成模型 NaturalSpeech2

站长网2023-07-28 10:55:032阅

微软最近推出了一个名为NaturalSpeech2的语音模型。这个模型采用了“潜在扩散”式设计，在零样本语音合成方面表现非常出色。微软声称这个模型提供了“商业级”的语音/歌唱解决方案，可以为用户提供高质量、多样化的语音合成体验。

与传统的语音转文字（TTS）系统不同，微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音，从而生成更完整的语音片段。这样做的优点是不会产生“缺乏感情”的“棒读”现象，即一字一顿地讲话。

实验结果表明，NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律非常接近，并且在LibriTTS和VCTK测试集上的自然度（以CMOS为度量）与真人语音难以区分。

因此，NaturalSpeech2是一个非常强大的语音合成工具，可以广泛应用于各种应用，如语音助手、智能客服、虚拟歌手等。它的推出将推动语音合成技术的发展，为用户提供更加智能、自然的语音交互体验。

论文链接:

https://arxiv.org/abs/2304.09116

项目演示:

https://speechresearch.github.io/naturalspeech2/

微软推出语音合成模型NaturalSpeech2

0002

评论列表

共(0)条

相关推荐

快手电商春节放大招: “好友送礼”功能上线，年货好礼一键送达!
站长之家(ChinaZ.com)1月27日消息:春节将至，快手电商再出新招，正式上线**“好友送礼”功能，为用户提供更加便捷、温馨的节日送礼体验。用户可以通过快手电商在线挑选年货、礼品，并一键赠送给指定好友，让祝福与心意快速传递。参与“春节不打烊”活动的商品，还可享受48小时内极速发货**的保障，确保节日好礼准时送达。
站长网站长资讯2025-01-27 11:29:14
0000
站长资讯
Meta发布高效SAM模型EffcientSAM 速度提升20倍！
继万物皆可分割的SAM模型后，Meta又发布了更高效的EfficientSAM模型。EfficientSAM是一项创新性的工作，旨在降低SAM模型的计算复杂性，使其在更广泛的实际应用中表现出色。该模型通过引入掩码图像预训练（SAMI）成功降低了SAM模型的计算复杂性，实现了速度提升20倍、参数减少20倍，同时性能仅损失约1.5mIoU。
站长网2023-12-08 14:57:16
0003
站长资讯
美图设计室上线“AI商拍” 支持AI模特试衣、服装换色等功能
美图设计室正式面向生产力场景推出“美图设计室·AI商拍”，一站式解决电商用户商业拍摄需求。“美图设计室·AI商拍”聚合了美图设计室自2023年4月以来相继上线的多项功能，包括“AI商品图”、“AI模特试衣”，另外与美图设计室的“智能抠图”、“服装换色”、“电商海报”等辅助功能配合，为电商拍摄与设计工作提供一站式解决方案。
站长网2023-12-14 18:03:16
0000
站长资讯
AI风投基金OpenAI Startup Fund额外筹集500万美元资金
划重点:⭐️OpenAIStartupFund融资额外5百万美元⭐️资金来自两位投资者，转入特殊目的实体OpenAIStartupFundSPVIII，L.P.⭐️OpenAIStartupFund已向至少16家初创公司投资，包括Harvey、AmbianceHealthcare和人形机器人公司FigureAI。
站长网2024-05-14 10:19:55
0000
站长资讯
QQ启动暑期未成年人网络环境整治加强短视频、直播场景治理
QQ安全中心宣布启动2024年暑期未成年人网络环境整治专项行动，重点聚焦以下几个方面问题，进一步整治各类有害未成年人的违规行为、清理网络有害信息:1、加强短视频、直播场景有害及不良信息治理工作:严厉打击经典动画、儿歌不良“二次包装”，摆拍校园霸凌，利用“网红儿童”牟利，变相诱导胁迫未成年人参与直播等行为;
站长网2024-07-15 08:44:08
0000