苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误
站长网2024-05-28 19:16:062阅
苹果最近推出了一项新的技术创新,去噪语言模型(DLM),通过大量合成数据的训练,取得了超越以往的成就,实现了自动语音识别(ASR)领域的最新性能水平。
这项技术的核心在于使用文本转语音(TTS)系统创建音频,并将其输入ASR系统,通过这种方式产生了嘈杂的假设,与原始文本进行配对,从而训练DLM。该方法的关键要素包括升级的模型和数据、多说话人TTS系统、各种噪声增强策略以及新的解码技术。
研究显示,单个DLM可以应用于不同的ASR系统,其性能显著优于传统的基于语言模型(LM)的集束搜索重新评分方法。这一突破意味着精心设计的纠错模型可以取代传统的LM,将ASR系统的准确率提升到一个新的高度。尤其值得注意的是,DLM在LibriSpeech上实现了1.5%的字错误率(WER),这是不使用外部音频数据时报告的最佳数字之一,证明了其卓越性能。
然而,DLM面临的挑战之一是需要大量的监督训练示例,而这在典型的ASR数据集中是有限的。为了解决这一问题,DLM采用了使用TTS系统生成合成音频的方法,从而扩展了训练数据集的规模。这种创新性的做法为DLM的性能提升提供了更广阔的空间,使其在ASR领域引领潮流。
0002
评论列表
共(0)条相关推荐
独立开发变现周刊(第111期):AI Excel公式生成器,月收入2万美元
目录1、Opengpts:开源的基于LangChain等基础上的GPTs交互式体验代码库2、sshx:开源的web协作终端3、Tally:一个简单的表单构建器,月收入7万美元4、一个AIExcel公式生成器,月收入2万美元1、Opengpts:开源的基于LangChain等基础上的GPTs交互式体验代码库站长网2023-11-10 09:20:200001Brilliant Labs推出Frame:一款集成AI的开源AR眼镜
BrilliantLabs最近发布了一款名为Frame的开源AR眼镜,这款设备结合了人工智能(AI)和增强现实(AR)技术,为用户带来了前所未有的交互体验。站长网2024-05-06 18:50:060000AI日报:微软推设计神器Microsoft Designer;苹果开源小模型 DCLM-Baseline-7B;小爱宣布新增AI文档问答等功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、微软推设计神器MicrosoftDesigner站长网2024-07-22 18:15:010004制造原子级层状金属的简单方法出现
扫描电子显微镜图像揭示了MXenes微小结构的美丽形状。图片来源:DiWang/芝加哥大学科技日报记者张佳欣一直以来,被称为“MXenes”(即二维过渡金属碳化物、氮化物或碳氮化物)的材料,属于劳动密集型产品。但美国芝加哥大学科学家们的一项新技术突破表明,现在可以更快、更容易地制造这些MXenes,并减少有毒副产品。相关研究发表在最新一期《科学》杂志上。站长网2023-05-24 16:26:460000火爆的跨年夜生意:民宿日入2万,气球一晚卖8千
很多人的2023年,过得并不算轻松。在这一年即将结束时,年轻人准备有仪式感地辞旧迎新。不少年轻人策划了一次东北之旅,一边排队四小时在冰雪大世界集体蹦迪,一边泡温泉、看极光。不想出远门的人,则提前买好了气球,写下心愿,准备在元旦零点钟声敲响时,与周围的人一同放飞。或者拉上朋友去营地,围着篝火一同唱歌跳舞,零点倒计时后一起放河灯许愿。0000