英伟达推新AI语音识别模型Parakeet 号称优于Whisper

站长网2024-01-08 11:22:321阅

划重点:

- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型，实现了卓越的语音识别准确性。

- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器，具有0.6-1.1亿参数。

- 🎯 Parakeet 模型在各种基准数据集上表现出色，适用于不同语音环境下的语音转写。

站长之家(ChinaZ.com) 1月8日消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发，是语音识别领域的一大突破，为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布推出了四个 Parakeet 模型，这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器，并且具有0.6-1.1亿参数。它们能够应对各种音频环境，并且在仅使用了64，000小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性，推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快，识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强，推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快，识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段（包括音乐和静音）具有抗干扰能力，有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的，注重用户友好性和灵活性。预训练的检查点可供直接使用，将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调，NeMo 都提供了一个强大而直观的框架，充分发挥模型的潜力。

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现，并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型，能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建，可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布，模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性，加上 NeMo 提供的灵活性和易用性，使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信，无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b，并在 Gradio 演示中使用。要在本地访问模型并探索工具包，请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

英伟达推新AI语音识别模型Parakeet号称优于Whisper

0001

评论列表

共(0)条

相关推荐

站长资讯
一次拿下10亿美金融资，杨植麟和月之暗面要放开手脚了
月之暗面，拿到了中国大模型初创公司自ChatGPT出现至今的最大一笔单轮融资，10亿美元。据36氪获悉，这轮新的融资动作在近日完成，投资方包括从天使轮就已进场的红杉中国，以及首次露面的小红书、美团和阿里巴巴。从去年年初攥着5000万美金入局，到去年10月拿到老股东红衫中国领投的近3亿美元的新一轮融资，再到这笔10亿美元融资完成，月之暗面估值已接近25亿美金。
站长网2024-02-20 17:22:19
0000
站长资讯
澳大利亚新闻集团利润下降75%，但对人工智能未来乐观
本文概要:1.澳大利亚新闻新闻集团全年利润下降75%，主要受到澳大利亚印刷和数字广告收入的下滑影响。2.该集团首次超过一半的收入来自数字流媒体，对人工智能的潜力抱有乐观态度。3.该集团正在积极谈判为其独特的内容集和知识产权确定人工智能时代的价值。
站长网2023-08-11 16:51:50
0000
站长资讯
荣耀CEO赵明：正探索把AI大模型引入端侧
在世界移动通信大会（MWC）上海展期间，荣耀CEO赵明在演讲中表示，消费电子行业是长周期行业，影响最大的因子从来不是经济周期，而是创新周期。他还提到，“端”侧的个人大模型将是未来的探索方向，荣耀将率先尝试把AI大模型引入端侧。
站长网2023-06-29 19:26:31
0000
谷歌量子芯片引爆热议：5分钟算完10²⁵年任务，Nature加急发表，还证实了多元宇宙？？？
全球科技圈都在为Sora疯狂，马斯克却轻轻给谷歌点了个赞（doge）。就在OpenAI“双12”第三天，谷歌在前沿科技的另一极出手了:发布最新量子芯片，5分钟内完成当今最快超级计算机之一需要10²⁵年才能完成的计算!怎么说1025这事儿呢，就是……10000000000000000000000000，10亿亿亿年。
站长网站长资讯2024-12-10 18:09:38
0000
站长资讯
研究：ChatGPT 的营养建议对非传染性疾病患者有限
**划重点:**-🤖新研究表明，ChatGPT无法替代医疗专业人员的咨询，特别是在处理患有多种非传染性疾病（NCDs）的患者的营养咨询时存在局限性。-🌐研究者通过对ChatGPT的使用进行评估发现，当处理重叠疾病时，该聊天机器人的效果下降，可能导致一些矛盾或不适当的建议。
站长网2024-02-19 18:12:00
0001