英伟达推新AI语音识别模型Parakeet 号称优于Whisper
划重点:
- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型,实现了卓越的语音识别准确性。
- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器,具有0.6-1.1亿参数。
- 🎯 Parakeet 模型在各种基准数据集上表现出色,适用于不同语音环境下的语音转写。
站长之家(ChinaZ.com) 1月8日 消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。
根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。
NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。
Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。
Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。
Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。
Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。
Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。
Parakeet 模型的主要优点包括:
- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。
- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。
- 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。
- 预训练检查点:可用于推理或微调的即插即用模型。
- 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。
Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。
官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/
华为云发布自动驾驶开发平台 基于盘古大模型打造
7月21日,华为云自动驾驶开发平台正式发布,该平台基于盘古大模型和ModelArtsAI开发生产线。提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力,帮助车企和商用车企业加速自动驾驶算法的开发验证和优化迭代,降低成本和风险,提升效率和安全性。站长网2023-07-21 22:05:340000日本航天局与铁路公司合作,利用人工智能预测轨道上的故障
划重点:-🛰️日本航天局(JAXA)与西日本旅客铁路公司(JR-West)合作,将后者的人工智能(AI)故障预测技术应用于卫星操作。-🚂这项合作旨在利用数据来预测工作卫星的故障,并解决它们,就像铁路设备维护一样。-🌐卫星运营商SKYPerfectJSATCorporation也参与其中,旨在通过改进AI模型的开发来检测轨道上的异常情况。站长网2024-05-24 17:57:280001GPT-4o再暴露「弱智」缺陷,大模型无一幸免,港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题
多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。0000我花了5天时间,整理了一份AI硬件大全。
最近AI硬件真的卷麻了。昨天晚上雷鸟又开了一场发布会,发布了他们的雷鸟v3。没有期货,直接可买。于是,全程看完以后直接一波激情下单。没啥可说的,冲就完了。最近也一直在梳理关于AI硬件的一些内容,整体感觉AI硬件,有一点2023年年中大模型的味道,百模大战,万众创新,一切都欣欣向荣。什么方向都有点好玩的,当然走的最前的还是AI眼镜和AI玩具,还有手环手表、戒指、挂件等等。0000新西兰超市 AI 机器人生成有毒食谱引发关注
概要:-新西兰超市Pak'nSave的AI食谱机器人推荐了一些有毒食谱,比如氯气鸡尾酒和漂白大米。-用户测试发现该机器人没有意识到有毒食谱的危险性,甚至给出了制作这些食谱的详细说明。-尽管这些食谱仅仅是娱乐性质,但这引发了人们对该技术的担忧。站长网2023-08-11 15:39:530000