苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误

站长网2024-05-28 19:16:062阅

苹果最近推出了一项新的技术创新，去噪语言模型（DLM），通过大量合成数据的训练，取得了超越以往的成就，实现了自动语音识别(ASR)领域的最新性能水平。

这项技术的核心在于使用文本转语音（TTS）系统创建音频，并将其输入ASR系统，通过这种方式产生了嘈杂的假设，与原始文本进行配对，从而训练DLM。该方法的关键要素包括升级的模型和数据、多说话人TTS系统、各种噪声增强策略以及新的解码技术。

研究显示，单个DLM可以应用于不同的ASR系统，其性能显著优于传统的基于语言模型（LM）的集束搜索重新评分方法。这一突破意味着精心设计的纠错模型可以取代传统的LM，将ASR系统的准确率提升到一个新的高度。尤其值得注意的是，DLM在LibriSpeech上实现了1.5%的字错误率(WER)，这是不使用外部音频数据时报告的最佳数字之一，证明了其卓越性能。

然而，DLM面临的挑战之一是需要大量的监督训练示例，而这在典型的ASR数据集中是有限的。为了解决这一问题，DLM采用了使用TTS系统生成合成音频的方法，从而扩展了训练数据集的规模。这种创新性的做法为DLM的性能提升提供了更广阔的空间，使其在ASR领域引领潮流。

苹果推出降噪语言模型DLM用于纠正ASR系统中的错误

0002

评论列表

共(0)条

相关推荐

站长资讯
为数据而生，为隐私而战：隐私计算产业加速崛起
数字经济时代，数据作为新的生产要素和战略性资源，是科技进步、政策制定和经济发展的重要动力。但是，只有在隐私和安全得到保障的前提下，数据的价值才能最大化。
站长网2023-05-15 14:12:57
0000
双十二手记：淘天隐匿，抖快奇袭
双12是否已经淡出历史舞台?‍这是淘天宣布取消双12、以“淘宝年终好价节”代替后，大众心里最直接的疑问。尽管是淘天出于低价常态化布局所做的战略调整，但在购物节热度冷却的背景下，难免给外界一种“鸣金收兵”的印象。结合今年双12各家战绩来看，与淘天的踯躅形成对比，抖快迎来泛货架电商建设的红利，占领年终大促高地，新的行业格局正在酝酿。
站长网站长资讯2023-12-15 12:12:37
0000
大厂员工转行卖保险，半年没赚足100元
“我，985研究生，字节前员工，决定去卖保险”，8个月前，贺贺在朋友圈官宣了自己保险经纪人的新职业身份。相比互联网大厂员工所带来的高学历、高薪身份加持，以及三餐免费、住房补贴等福利，学历要求低、无底薪和福利保障的保险行业，逐层打破了贺贺曾经的互联网大厂光环。
站长网站长资讯2023-12-28 22:28:30
0000
站长资讯
美国 SEC 调查 OpenAI 投资者是否被误导
据《华尔街日报》的报道，美国证券交易委员会正在审查OpenAI高管SamAltman的内部通讯，以调查该公司的投资者是否被欺骗。监管机构正在寻找ChatGPT的创建者和前高管任的内部记录，并在去年12月向公司发行了传票。在此之前，OpenAI董事会在去年11月决定解除了Altman最初的职责，并启动了其一直启动的董事会。
站长网2024-02-29 16:43:06
0000
站长资讯
清华系AI视频工具，用10天给《毒液》官方做了个片子
国产AI视频大模型牵手国际顶尖IP!最近票房单日冠军漫威《毒液3》的水墨风宣传片，竟然是用AI做的。就是下面索尼电影官方发布这一条30秒的时长，搞了个水墨版毒液大咖秀——时而幻化成鱼，时而变做岸上奔腾的毒液马;一会儿又飞檐走壁，变换为展翅飞鹤，在古楼最高处俯瞰城市。脸上还露出毒液标志性的邪魅一笑。
站长网2024-10-25 18:05:16
0000