Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言
日前,Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音。
与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。

为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。
Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。
与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。
Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。
不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
谷歌这一“大招”,要逼死多少AI标注公司?
如果说,当下的生成式AI,是一个正在茁壮成长的孩子,那么源源不断的数据,就是其喂养其生长的食物。而数据标注,就是制作这一“食物”的过程。然而,这一过程真的很卷,很累人。进行标注的“标注师”不仅需要反复地识别出图像中的各种物体、颜色、形状等,有时候甚至需要对数据进行清洗和预处理。随着AI技术的不断进步,人工数据标注的局限性也日益显现。人工数据标注不仅耗时耗力,而且质量有时难以保障。站长网2023-09-18 09:50:570000最强潜望长焦旗舰!vivo X100 Ultra维修价格出炉
快科技5月18日消息,vivo官网公布了vivoX100Ultra维修配件价格。其中显示屏、主板报价分别是1820元、2850元(12GB256GB)。摄像头部分,后置主摄是1080元,其次是潜望长焦,备件价格是820元,超广角是185元。和其它Ultra旗舰相比,vivoX100Ultra的潜望长焦规格最为豪华,其成本自然也是最高的。站长网2024-05-19 09:48:550000阿里云宣布全方位支持Llama 3训练推理 帮助开发者构建自己的大模型
阿里云百炼大模型服务平台近期宣布了一项重要的支持计划,即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务,旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。主要如下:免费算力支持:阿里云提供的免费算力支持,可以降低企业和开发者在大模型训练和部署过程中的成本。站长网2024-04-22 15:40:130000OpenAI直播12天,马斯克融资437 亿
OpenAI的12天马拉松直播活动结束了,但是这个“马拉松”有点名不副实。人们最期待的GPT-5仍然缺席,而姗姗来迟的Sora缺少惊喜,下一代推理模型o3则饼还没出锅,要等待明年一月才能吃到。0000高薪主播,濒临“下岗”?
2023年,AI主播正在直播电商行业自上而下地“流行”开来。4月25日,腾讯云发布智能小样本数字人生产平台,宣称三分钟完成建模、成本降低至数千元,即利用技术进行人物外貌和声音模型的训练和搭建,从而1:1还原主播,创造一个“AI替身”。图源:腾讯云数智人生成效果站长网2023-07-26 09:59:220001