谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌表示,推出通用语音模型(USM)是其未来支持1000种语言的关键一步。
去年11月,谷歌宣布推出「1000种语言计划」,旨在构建一个机器学习 (ML) 模型,支持世界上使用最广泛的1000种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。
现在,谷歌公开了更多有关通用语音模型 (USM) 的信息,这是支持1000种语言的第一步。USM 包含一系列 SOTA 语音模型,带有20亿参数,经过1200万小时的语音和280亿个文本句子的训练,涵盖300多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。
谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。

USM 支持的语言示例。
当前的挑战
为了实现「1000种语言计划」,谷歌需要解决 ASR 中的两个重大挑战。
首先,传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获得足够的数据来训练高质量的模型。使用传统方法,音频数据需要手动标记,这既费时又昂贵;或者从已有数据中收集可用数据,但这对于使用人数很少的语言来说很难找到。
相比之下,自监督学习可以利用纯音频数据,这些数据包含大量不同的语言,使得自监督学习成为实现跨数百种语言扩展的好方法。
另一个挑战是,在扩大语言覆盖范围和提升模型质量的同时,模型必须以计算高效的方式进行改进。这就要求学习算法具有灵活性、高效性和泛化性。更具体地说,算法需要能够使用来自各种来源的大量数据,在不需要完全重新训练的情况下启用模型更新,并推广到新的语言和用例。
解决方法:带有微调的自监督学习
USM 使用标准的编码器 - 解码器架构,其中解码器可以是 CTC、RNN-T 或 LAS。对于编码器,USM 使用 Conformer 或卷积增强型 transformer。Conformer 的关键组件是 Conformer 块,它由注意力模块、前馈模块和卷积模块组成。它将语音信号的 log-mel 声谱图作为输入并执行卷积下采样,之后应用一系列 Conformer 块和投影层以获得最终嵌入。
USM 的训练流程如下图所示:
第一步先从对涵盖数百种语言的语音音频进行自监督学习开始。
第二步是可选步骤,谷歌通过使用文本数据进行额外的预训练来提高模型的质量和语言覆盖率。是否采用这个步骤取决文本数据是否可用。
训练 pipeline 的最后一步是使用少量有监督数据微调下游任务(例如,ASR 或自动语音翻译)。

USM 的整体训练流程。
第一步中谷歌使用了 BEST-RQ,因为它已经在多语言任务上展示了 SOTA 结果,并且在使用大量无监督音频数据时被证明是有效的。
在第二步中,谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM 模型引入了一个额外的编码器模块将文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,然后再在未标记语音、标记语音和文本数据上联合训练模型。
凭借在预训练期间获得的知识,最后一步 USM 模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。
主要结果展示
YouTube Captions 测试集上不同语言的性能
谷歌的编码器通过预训练整合了300多种语言,并通过在 YouTube Caption 多语言语音数据上微调证明了该预训练编码器的有效性。监督式 YouTube 数据包括73种语言,每种语言平均具有不超过3000小时的数据。尽管监督数据有限,USM 仍在73种语言中平均实现了低于30% 的词错率(WER,越低越好),这是以往从未实现的里程碑。对于 en-US,与当前谷歌内部 SOTA 模型相比,USM 的 WER 相对降低了6%。
谷歌还与 OpenAI 近期发布的大模型 Whisper (large-v2) 进行了比较,后者使用超过400k 小时的标注数据进行训练。为了便于比较,谷歌仅使用 Whisper 可以成功解码且 WER 低于40% 的18种语言。结果如下图所示,USM 的平均 WER 比 Whisper 低了32.7%。

对于下游 ASR 任务的泛化性能
对于公开可用的数据集,USM 在 CORAAL(非裔美国人土语)、SpeechStew(en-US)和 FLEURS(102种语言)数据集上显示出了较 Whisper 更低的 WER。USM 在接受和没有接受域内数据训练的情况下都实现了更低的 WER。具体结果如下图所示。

自动语音翻译(AST)性能
对于语音翻译,谷歌在 CoVoST 数据集上进行微调。谷歌的模型(包括通过 pipeline 第二阶段的文本)在有限监督数据下实现了 SOTA 性能。此外,为了评估模型性能的广度,谷歌根据资源可利用性将 CoVoST 数据集中的语言分为了高(high)、中(medium)和低(low),并计算相应的 BLEU 分数(越高越好)。
如下图所示,USM 在所有语言细分中超越了 Whisper。

未来将支持1000种语言
USM 的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信,USM 的基础模型架构和训练 pipeline 奠定了将语音建模扩展到未来1000种语言的根基。
手握IP,阅文拥兵自重
3月16日晚,阅文集团发布了2022年全年业绩报告。2022年,阅文集团总营收为76.3亿元,同比下滑12%;非国际财务报告准则下归母净利润为13.5亿元,同比增长9.6%,对应净利率由14.2%提升至17.7%。“2022年,市场环境发生了重大变化,对文化和数字娱乐公司而言,过去基于数量的低效粗暴增长方式逐渐被摈弃,而对文化产品本身质量的诉求达到了前所未有的高度。”站长网2023-03-18 11:13:510000继淘宝、美团之后,抖音这次挑战B站你看好吗?
抖音又有新动作了!近日,抖音上线一个属于年轻人的兴趣知识视频平台“青桃”,slogan“上青桃,看见你的热爱”,是抖音官方出品的中长视频关联版本,引发大众关注。从视频分类上,主要分为互联网前沿、科学探索、财经之道、职场进阶、环游旅记、爱车博物馆、运动健身、文化艺术、萌宠星人等,与B站相比,更集中于兴趣知识,且创作者可以自行创作专题内容,在发现页被推荐。站长网2023-03-25 10:44:000000中国汽车流通协会谈武汉市汽车降价:有失公允
最近一段时间,由湖北联合东风汽车掀起了一波降价潮,已经席卷了全国、全行业。目前有不少车企和地方都纷纷跟进,发放补贴或者降价。对于部分准备买车的消费者来说,这是一件好事,不过也有观点认为其不妥,尤其是针对性的限制。站长网2023-03-18 10:48:580000《黑暗荣耀》成话题制造机,自媒体人追剧的4大姿势…
距离奈飞神剧《黑暗荣耀2》开播虽已过去十余天,但多个与剧情相关的话题却仍还在微博热搜榜上占据一席之地。图|截图自“微博”为何《黑暗荣耀2》能在话题风向瞬息万变的互联网上受到网友的持续关注?除了电视剧本身制作精良的画面和逻辑缜密的剧情,还多亏了自媒体们的推波助澜。站长网2023-03-22 14:07:140002昔日网红西少爷卷土重来,40万加盟就能“闷声发财”?
2014年前后,消费领域还是一个明星公司辈出的鼎盛时期,餐饮界横空出世一批明星消费品牌,譬如,西少爷、黄太吉、雕爷牛腩、霸蛮米粉、小恒水饺。大浪淘沙,一些品牌早已淫没在创业大潮之中,也有一些品牌仍旧活跃至今,西少爷就是其中的幸存者之一。站长网2023-03-18 11:27:260000