苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误
站长网2024-05-28 19:16:062阅
苹果最近推出了一项新的技术创新,去噪语言模型(DLM),通过大量合成数据的训练,取得了超越以往的成就,实现了自动语音识别(ASR)领域的最新性能水平。
这项技术的核心在于使用文本转语音(TTS)系统创建音频,并将其输入ASR系统,通过这种方式产生了嘈杂的假设,与原始文本进行配对,从而训练DLM。该方法的关键要素包括升级的模型和数据、多说话人TTS系统、各种噪声增强策略以及新的解码技术。

研究显示,单个DLM可以应用于不同的ASR系统,其性能显著优于传统的基于语言模型(LM)的集束搜索重新评分方法。这一突破意味着精心设计的纠错模型可以取代传统的LM,将ASR系统的准确率提升到一个新的高度。尤其值得注意的是,DLM在LibriSpeech上实现了1.5%的字错误率(WER),这是不使用外部音频数据时报告的最佳数字之一,证明了其卓越性能。
然而,DLM面临的挑战之一是需要大量的监督训练示例,而这在典型的ASR数据集中是有限的。为了解决这一问题,DLM采用了使用TTS系统生成合成音频的方法,从而扩展了训练数据集的规模。这种创新性的做法为DLM的性能提升提供了更广阔的空间,使其在ASR领域引领潮流。
0002
评论列表
共(0)条相关推荐
为数据而生,为隐私而战:隐私计算产业加速崛起
数字经济时代,数据作为新的生产要素和战略性资源,是科技进步、政策制定和经济发展的重要动力。但是,只有在隐私和安全得到保障的前提下,数据的价值才能最大化。站长网2023-05-15 14:12:570000双十二手记:淘天隐匿,抖快奇袭
双12是否已经淡出历史舞台?这是淘天宣布取消双12、以“淘宝年终好价节”代替后,大众心里最直接的疑问。尽管是淘天出于低价常态化布局所做的战略调整,但在购物节热度冷却的背景下,难免给外界一种“鸣金收兵”的印象。结合今年双12各家战绩来看,与淘天的踯躅形成对比,抖快迎来泛货架电商建设的红利,占领年终大促高地,新的行业格局正在酝酿。0000大厂员工转行卖保险,半年没赚足100元
“我,985研究生,字节前员工,决定去卖保险”,8个月前,贺贺在朋友圈官宣了自己保险经纪人的新职业身份。相比互联网大厂员工所带来的高学历、高薪身份加持,以及三餐免费、住房补贴等福利,学历要求低、无底薪和福利保障的保险行业,逐层打破了贺贺曾经的互联网大厂光环。0000美国 SEC 调查 OpenAI 投资者是否被误导
据《华尔街日报》的报道,美国证券交易委员会正在审查OpenAI高管SamAltman的内部通讯,以调查该公司的投资者是否被欺骗。监管机构正在寻找ChatGPT的创建者和前高管任的内部记录,并在去年12月向公司发行了传票。在此之前,OpenAI董事会在去年11月决定解除了Altman最初的职责,并启动了其一直启动的董事会。站长网2024-02-29 16:43:060000清华系AI视频工具,用10天给《毒液》官方做了个片子
国产AI视频大模型牵手国际顶尖IP!最近票房单日冠军漫威《毒液3》的水墨风宣传片,竟然是用AI做的。就是下面索尼电影官方发布这一条30秒的时长,搞了个水墨版毒液大咖秀——时而幻化成鱼,时而变做岸上奔腾的毒液马;一会儿又飞檐走壁,变换为展翅飞鹤,在古楼最高处俯瞰城市。脸上还露出毒液标志性的邪魅一笑。站长网2024-10-25 18:05:160000