Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言
日前,Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音。
与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。
为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。
Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。
与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。
Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。
不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
小米Buds 5旗舰耳机发布:天籁无损原声 只需699元
快科技7月19日消息,小米意外发布了新款旗舰级无线耳机小米Buds5”,主打一个天籁般的无损原声音质,定价仅为699元,现已开售。小米Buds5采用了人体仿生曲率造型的半入耳设计,单只轻至4.2克,可以无感佩戴,还提供月影黑、雪山白、冰霜蓝、钛光金四种不同配色风格可选。站长网2024-07-21 02:58:370002李想发全员信自我批评:理想汽车不再单纯追求销量
理想汽车CEO李想近日发布全员信,深入剖析了公司近期面临的挑战,并针对理想MEGA汽车的上市节奏以及过分关注销量的欲望问题,提出了解决方案。站长网2024-03-22 02:32:000000消息称TikTok正测试AI聊天机器人Tako
DoNews5月26日消息,据透露,TikTok正测试一款AI聊天机器人,该工具可与用户交流短视频相关问题,并帮助他们发现内容。据路透社报道,显示该聊天机器人以一个小精灵形状的图标出现在应用界面上,用户可以在观看视频时点击它,进行文字对话,并获得视频内容相关的帮助。对于Tako,TikTok的一位发言人表示,该社交媒体平台一直在探索新技术。0000微软悄悄发布 Windows Copilot 预览版 向所有 Windows Insiders 成员开放
站长之家(ChinaZ.com)7月18日消息:在6月29日,微软向WindowsInsiders计划的DevChannel成员发布了一次重大的Windows11更新。DevChannel版本23493中有许多新功能,其中最重要的是WindowsCopilot,这是一款生成型AI助手,首次在微软的Build2023开发者大会上宣布。站长网2023-07-18 12:30:520000苹果试点类ChatGPT工具Ask 帮助客服回答用户问题
苹果正在试点推进一款名为Ask的类ChatGPT工具,旨在帮助其AppleCare客服团队更有效地回答用户的技术问题。据悉,这款Ask工具具备强大的功能,能够自动生成相关的操作步骤、疑难解答等内容。当用户向客服团队提出技术疑问时,客服人员可以直接参考Ask工具提供的信息,从而更加快速、准确地为用户解决问题。站长网2024-02-23 16:35:160000