Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言
日前,Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音。
与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。
为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。
Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。
与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。
Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。
不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
今日AI:华为发布4K图像模型PixArt-Σ;这个ComfyUI插件可以还原梦境;Pika把音效视频一锅端了;公众号可以一键集成多种AI功能了
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用华为发布图像生成模型PixArt-Σ可直出4K图像【AiBase提要:】⭐采用DiT架构,可直接生成4K图像站长网2024-03-11 16:02:200001一加12入网 首发2K国产屏支持100W快充
一加12手机获得了国内3C认证,并支持100W快充。一加12将采用双曲面方案,前摄居中开孔,四边框控制出色。该手机将搭载国内现有的最高清2K柔性屏,分辨率高达3168x1440,局部峰值亮度超2600nits。这块屏幕是首个获得DisplayMateA的国产2K屏,刷新了18项纪录,在亮度、护眼能力、使用寿命等方面均做到全球领先。站长网2023-11-04 17:33:250000moto razr 50 Ultra入网:全球首款骁龙8s Gen3折叠屏
快科技5月31日消息,motorazr50Ultra获得入网许可。据悉,motorazr50Ultra采用6.9英寸内屏,同时配备4英寸大外屏,搭载高通骁龙8sGen3平台,后置5000万双摄,前置3200万,电池是4000mAh,支持68W快充,这是行业内第一款骁龙8sGen3折叠屏。站长网2024-05-31 16:18:030000百度内测“极致满足”和“AI伙伴”搜索功能 支持视频和图表回答提问
今日,百度集团副总裁、搜索平台负责人肖阳接受媒体专访并表示,百度正在进行内测的两项新搜索功能:“极致满足”和“AI伙伴”。在这些新功能中,当用户输入搜索词时,百度首页会呈现多个答案解释,还支持通过视频直接回答用户的问题,并自动定位到关键段落。另外,百度搜索还能通过书籍直接回答问题,以及利用图表方式回复,生成趋势、柱状图、折线图等,这是借助DBQA(文档级的QA)技术实现的。站长网2023-06-30 19:48:480000