开源文本到语音系统WhisperSpeech 通过反向工程实现
站长网2024-01-22 11:58:090阅
WhisperSpeech是一个开源的文本到语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。
体验地址:https://top.aibase.com/tool/whisper-speech
目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。
WhisperSpeech 项目路线图:
-声学标记提取:改进声学标记的提取过程。
-语义标记提取:使用Whisper模型生成和量化语义标记。
-S->A模型转换:开发将语义标记转换为声学标记的模型。
-T->S模型转换:实现从文本标记到语义标记的转换。
-提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。
-短句推理优化:改善系统处理短句的能力。
-扩展情感语音数据集:收集更大的情感语音数据。
-文档化LibriLight数据集:详细记录HuggingFace上的数据集。
-多语言语音收集:聚集社区资源,收集多种语言的语音。
-训练多语言模型:开发支持多语言的文本到语音模型。
0000
评论列表
共(0)条相关推荐
微信规范公众号文章诱骗点击小程序骗取广告收益行为
微信公众平台运营中心发布《关于规范公众号文章诱骗点击小程序骗取广告收益行为的公告》称,近期,平台发现部分创作者在文章中使用不完全或擦边的标题、擦边的封面和无意义或不完整的内容,并插入诱导性小程序卡片、图片、文字链接,引导用户点击跳转至无关或无效页面进行广告诱骗点击。这种违规导流行为损害用户的阅读体验,骗取广告收益,严重扰乱了平台的健康生态。站长网2024-03-14 15:58:120000苹果和谷歌避免将 ChatGPT 命名为“年度应用程序”
尽管ChatGPT应用用户增长迅猛,但在刚公布的2023年度最佳应用和游戏中,苹果和谷歌都没有将其评为年度应用,而是选择了其他应用。苹果将徒步旅行应用AllTrails评为年度iPhone应用,谷歌Play商店则选择教育应用Imprint。与此同时,两大平台在年度游戏的选择上达成一致,均为《崩坏:星轨》。站长网2023-11-30 15:26:260000Meta CTO:AI已经成为XR领域杀手级应用的关键推动力
要点:MetaCTOAndrewBosworth强调了AI与XR融合的重要性,认为AI已成为XR杀手应用的关键驱动力,Meta最新推出的AR眼镜是这一理念的典型案例。在讨论Meta的Quest产品时,Bosworth指出,AI在3D对象领域缺乏大规模、权威的数据库,但Meta正在努力改进,并强调XR和VR的优势在于始终开启的传感器,为3D和4D空间的研究提供了潜力。站长网2023-12-25 19:08:100000百度旗下小度青禾新款手机曝光 支持5G网络
近日,一款型号为XD-SEE000-2302的5G手机通过了国家3C认证,申请人为上海小度技术有限公司。这款新机采用了极具辨识度的后置影像模组设计,十分独特。根据入网信息,这款手机支持5G网络连接,配备UC13CCC充电器,支持5V2A的10W充电。正面外观与上一代产品相似,采用水滴直屏设计。站长网2023-07-14 16:20:390001AI在线字幕生成工具字幕酱 可自动生成、翻译字幕
字幕酱是一个在线字幕生成工具,利用AI深度学习技术,提供自动字幕生成、字幕翻译、字幕格式转换等功能。基于AI人工智能,字幕酱可以在线自动生成、自动翻译、格式转换和制作双语字幕。支持多种语言,如中文、英文、粤语、日语、韩语、德语、法语、西班牙语等,并提供在线语音转字幕工具。体验地址:https://www.zimujiang.com/特色功能:60秒内短视频免费,性价比极高;站长网2023-08-21 14:36:290002