Meta 的开源语音 AI 项目 MMS 可识别 4000 多种口头语言
Meta 公司的人工智能研究团队今天宣布开源一个名为「Massively Multilingual Speech(大规模多语言语音)」的新项目,旨在解决创建准确可靠的语音识别模型的挑战。
图片来自Meta
能够识别人类语音并清晰回应的 AI 模型具有巨大的潜力,特别是对于完全依赖语音访问获取信息的人来说。然而,训练高质量的模型通常需要大量的数据,包括数千小时的音频和对话内容的转录。对于许多语言,特别是那些较为冷门的语言,这样的数据根本不存在。
Meta 的 MMS 项目通过将一种名为 wav2vec 2.0 的自监督学习算法与一个提供了超过 1,100 种语言标记数据和近 4,000 种语言无标记数据的新数据集相结合,克服了数据不足的问题。
为了解决某些语言数据缺乏的问题,Meta 的研究人员利用《圣经》这本在很多语言中已经被翻译的书籍。其翻译通常被用于基于文本的语言翻译研究,并且许多语言而且,还有人们朗读这些文本的公开可用的音频录音。
「作为这个项目的一部分,我们创建了一个包含 1,100 多种语言新约圣经的数据集,平均每种语言提供了 32 小时的数据量,」Meta 的研究人员说道。
当然,32 小时的数据量不足以训练传统的有监督语音识别模型,这就是为什么使用 wav2vec 2.0 的原因。Wav2vec 2.0 是一种自监督学习算法,使机器能够在不依赖于标记训练数据的情况下学习。
借助这种算法,可以用更少的数据训练语音识别模型。MMS 项目在 1,400 多种语言中的约 500,000 小时的语音数据上训练了多个自监督模型,然后对生成的模型进行了特定的语音任务微调,如多语言语音识别或语言识别。
Meta 表示,生成的模型在 FLEURS 等标准评估以及与其他语音识别模型的比较中表现良好。
「我们使用了一个包含 1B 参数的 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型,」Meta 的研究人员解释道,「随着语言数量的增加,性能确实会下降,但幅度很小,:从 61 种语言增加到 1,107 种语言,字符错误率仅增加约 0.4%,但语言覆盖范围增加了 17 倍以上。」
在与 OpenAI LP 的 Whisper 语音识别模型进行直接比较时,Meta 的研究人员发现,使用 MMS 数据训练的模型的单词错误率大约是其一半。「这表明我们的模型在与目前最佳的语音模型相比时表现非常出色,」研究人员表示。
Meta 表示,现在他们正在分享 MMS 数据集和用于改进和训练模型的工具,以便 AI 研究界的其他人能够在此基础上进行进一步的工作。MMS 项目的目标包括扩大其覆盖范围以支持更多的语言,并改善对方言的处理,这是现有语音技术所面临的主要挑战。
「我们的目标是让人们更容易以自己偏好的语言获取信息和使用设备,」研究人员说道,「我们还设想未来的情景是,一个单一模型能够解决所有语言的多种语音任务。虽然我们训练了独立的语音识别、语音合成和语言识别模型,但我们相信将来一个单一模型将能够完成所有这些任务,带来更好的整体性能。」
YouTube Music推出歌曲播放次数和AI生成播放列表创作功能
**划重点:**1.📊YouTubeMusic现在为每首歌曲添加了播放次数统计。2.🖼️AI生成的播放列表艺术创作者功能在更多地区得到推广。3.🌈用户对歌曲播放次数的可见性和艺术创作者功能的扩大表示好评和一些担忧。在最新的更新中,YouTubeMusic引入了两项引人注目的功能,为用户提供更丰富的音乐体验。站长网2023-12-15 18:15:160005报告:特斯拉FSD入华 可为马斯克赚20亿美元
快科技5月3日消息,据报道,美国银行近期发布了一份报告,其中提到了特斯拉FSD(全自动驾驶)系统的前景。报告指出,特斯拉CEO马斯克的访华,为FSD进入中国市场扫清了障碍。如果中国的特斯拉司机越来越多地采用其FSD软件,到2030年,这家电动汽车制造商在这方面的利润可能达到每年20亿美元以上。站长网2024-05-03 22:33:570000无需AI PC也能跑AI应用?背后的原因你知道吗
最近关注PC市场的朋友想必会注意到,“AIPC”已经成为了诸多厂商最新的宣传口号。在更进一步的产品介绍里,这些厂商往往会宣称他们的新品使用了全新内置NPU(神经网络单元)的处理器,因此它可以运行老旧设备所不能支持的各种AI应用,提供从语音助手到用户感知、从生成式绘图到文本辅助编辑在内的众多新功能。站长网2024-04-18 14:54:390000搜索引擎引DuckDuckGo推出AI Chat聊天机器人,承诺保护对话隐私
划重点:⭐DuckDuckGo引入AIChat,提供私密聊天服务⭐用户可自由选择不同模型进行对话⭐公司承诺保护用户隐私,提供关闭选项随着隐私保护备受关注的DuckDuckGo搜索引擎引入了AIChat,这是一个可选的、免费的聊天机器人服务,用户可根据自己的需求选择不同的模型进行对话,并且“可以轻松关闭”,产品提供关闭选项无疑表明了对产品的自信。站长网2024-06-08 12:44:030000再见,Linux中国
在2月1日,Linux中国社区宣布停止了运营。旗下网站、公众号等各个平台停止更新,蕴含着一个时代的结束回想起大学时期,我是一个Linux的忠诚粉丝,主要原因是喜欢Linux有和苹果一样的交互界面,安装以Linux为基础运行的ubuntu系统,可以体验到和MacOS一样的简介与系统操作。唯一的不好就是许多应用程序与游戏,并不支持这个系统。0000