英伟达推新AI语音识别模型Parakeet 号称优于Whisper
划重点:
- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型,实现了卓越的语音识别准确性。
- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器,具有0.6-1.1亿参数。
- 🎯 Parakeet 模型在各种基准数据集上表现出色,适用于不同语音环境下的语音转写。
站长之家(ChinaZ.com) 1月8日 消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。
根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。
NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。
Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。
Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。
Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。
Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。
Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。
Parakeet 模型的主要优点包括:
- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。
- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。
- 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。
- 预训练检查点:可用于推理或微调的即插即用模型。
- 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。
Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。
官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/
单部预算最高达千万级,《孤注一掷》们押注“抖音电影”?
今年暑期档的最大赢家要出现了。截至发稿前,《孤注一掷》累计票房超27亿。猫眼专业版预测,《孤注一掷》内地总票房38.26亿元,有望成为今年暑期档票房最高的电影。站长网2023-08-22 01:05:580003iPhone 16 Pro Max可能将配备超长焦摄像头
据macrumors消息,iPhone16ProMax可能是第一款采用超长焦潜望镜相机的iPhone手机,这种相机可以大幅提高光学变焦倍数,这是来自亚洲的一份新报告透露的。站长网2023-07-19 11:02:460000一加12搭载独家自研全区域多功能NFC:感应范围覆盖整机
快科技12月3日消息,一加12旗舰新机将会在12月5日14:30正式发布,现在该机已经在OPPO商城开启预约。据一加手机今日介绍,一加12搭载独家自研全区域多功能NFC”,手机的多个部位都能感应NFC,覆盖到整机更多区域。同时,用户在使用手机刷门禁、公交卡等,无需瞄准”,正面、反面、侧面都能刷。站长网2023-12-03 18:25:290001美国监管机构:现行法律没有“人工智能豁免”
日前,美国联邦贸易委员会FTC主席LinaKhan警告称,美国政府将毫不犹豫的制止涉及偏见或欺骗性人工智能工具的非法行为,包括人工智能工具中的机器偏见和欺骗性内容。Khan警告说,自动化工具不仅会导致偏见,还有很多先进的人工智能工具可产生类似于人的内容。她对诈骗者可能使用的人工智能工具表示担忧,比如会更广泛地部署虚假或令人信服的内容,更精准地针对特定群体。站长网2023-04-27 14:44:250000商汤科技发布自研中文语言大模型应用平台「商量SenseChat」
站长之家(ChinaZ.com)4月10日消息:商汤科技今日举行技术交流日活动。活动上,商汤科技展示了「日日新SenseNova」大模型体系。其中包括自然语言生成、文生图、感知模型标注和模型研发功能。站长网2023-04-12 11:29:130001