Meta 的开源语音 AI 项目 MMS 可识别 4000 多种口头语言
Meta 公司的人工智能研究团队今天宣布开源一个名为「Massively Multilingual Speech(大规模多语言语音)」的新项目,旨在解决创建准确可靠的语音识别模型的挑战。
图片来自Meta
能够识别人类语音并清晰回应的 AI 模型具有巨大的潜力,特别是对于完全依赖语音访问获取信息的人来说。然而,训练高质量的模型通常需要大量的数据,包括数千小时的音频和对话内容的转录。对于许多语言,特别是那些较为冷门的语言,这样的数据根本不存在。
Meta 的 MMS 项目通过将一种名为 wav2vec 2.0 的自监督学习算法与一个提供了超过 1,100 种语言标记数据和近 4,000 种语言无标记数据的新数据集相结合,克服了数据不足的问题。
为了解决某些语言数据缺乏的问题,Meta 的研究人员利用《圣经》这本在很多语言中已经被翻译的书籍。其翻译通常被用于基于文本的语言翻译研究,并且许多语言而且,还有人们朗读这些文本的公开可用的音频录音。
「作为这个项目的一部分,我们创建了一个包含 1,100 多种语言新约圣经的数据集,平均每种语言提供了 32 小时的数据量,」Meta 的研究人员说道。
当然,32 小时的数据量不足以训练传统的有监督语音识别模型,这就是为什么使用 wav2vec 2.0 的原因。Wav2vec 2.0 是一种自监督学习算法,使机器能够在不依赖于标记训练数据的情况下学习。
借助这种算法,可以用更少的数据训练语音识别模型。MMS 项目在 1,400 多种语言中的约 500,000 小时的语音数据上训练了多个自监督模型,然后对生成的模型进行了特定的语音任务微调,如多语言语音识别或语言识别。
Meta 表示,生成的模型在 FLEURS 等标准评估以及与其他语音识别模型的比较中表现良好。
「我们使用了一个包含 1B 参数的 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型,」Meta 的研究人员解释道,「随着语言数量的增加,性能确实会下降,但幅度很小,:从 61 种语言增加到 1,107 种语言,字符错误率仅增加约 0.4%,但语言覆盖范围增加了 17 倍以上。」
在与 OpenAI LP 的 Whisper 语音识别模型进行直接比较时,Meta 的研究人员发现,使用 MMS 数据训练的模型的单词错误率大约是其一半。「这表明我们的模型在与目前最佳的语音模型相比时表现非常出色,」研究人员表示。
Meta 表示,现在他们正在分享 MMS 数据集和用于改进和训练模型的工具,以便 AI 研究界的其他人能够在此基础上进行进一步的工作。MMS 项目的目标包括扩大其覆盖范围以支持更多的语言,并改善对方言的处理,这是现有语音技术所面临的主要挑战。
「我们的目标是让人们更容易以自己偏好的语言获取信息和使用设备,」研究人员说道,「我们还设想未来的情景是,一个单一模型能够解决所有语言的多种语音任务。虽然我们训练了独立的语音识别、语音合成和语言识别模型,但我们相信将来一个单一模型将能够完成所有这些任务,带来更好的整体性能。」
Roblox的目标是通过生成AI工具实现类似西部世界的轻松设计
Roblox首席执行官DavidBaszucki在Roblox2023年第二季度收益电话会议上表示,他设想其生成式人工智能系统有朝一日可能以类似于科幻剧《西部世界》的方式工作。与AI如何帮助Roblox开发人员有关的较长回答中,提到了与《西部世界》的比较。站长网2023-08-10 16:12:300000全网都在吐槽“AI刘强东”,但属于普通人的机会来了
“AI刘强东大佬下场直播秀”的消息相信大家都知道了。4月16日18点18分,刘强东AI数字人在京东App开启直播首秀,品类包括粮油、农产品、宠物用品等。直播间的刘强东数字人和真人确实颇为相似:无论是外貌神态还是语音语调,都模仿了刘强东本人的习惯,但是不少网友依然评价称过于生硬,虽然有和网友的互动部分,但看上去与念稿并无差异,而非真正意义的互动。但数字人出镜的数据到底是怎么样的呢?站长网2024-04-19 09:26:430000一年新增528万人,中小达人站上抖音电商C位?
中小达人正在成为抖音电商的中坚力量。新增带货达人528万人,同比增长74%;年销售额50-500万作者中,有81%的达人粉丝量不足10万......这是《2024抖音电商达人成长报告》对外公布的数据。今年以来,超头主播淡出或者退出直播间,一度是行业热议的话题,“去头部化”也几乎成为平台的共识。那么,平台还能如何撬动新的增长?中小达人能否扛起大旗?中小达人站上C位站长网2024-08-02 12:02:150000靠AIGC翻身,又遇比特币大涨,蔡文胜的美图「赌赢」了?
有这样一家曾因“炒币”亏损而上热搜的公司,在兜兜转转尝试无数赛道数年、亏损近20亿元后,转身发现自己一直守着的主营业务,在AI能力的加持之下,居然是这么大的一座金矿......3月15日,美图公司发布其2023年年度报告,财报显示,公司2023年营收收入约26.96亿元,同比增长29.27%,净利润为3.78亿元,同比增长301.8%。站长网2024-03-18 10:40:22000010分钟定制一个「陈天奇GPT」,OpenAI新品大波实测来袭!Sam Altman降维打击,千家AI初创公司入土
【新智元导读】OpenAI引爆了核弹,让任何人都可以使用自然语言在几分钟内构建应用程序!爆炸性的革命时刻,真的来了。OpenAI首届春晚,创业公司屠杀夜。正如SamAltman所言:「我们正在孕育新物种,它们正在迅速增殖。」可以说,基于OpenAI接口构建创业公司,产品忽然就失去了意义。许多初创公司的产品,已经没有了护城河。站长网2023-11-08 14:03:090000