OpenAI发布升级版ASR模型Whisper3,计划开放API
站长网2023-11-07 15:21:200阅
划重点:
- OpenAI在开发者日发布了一系列开源模型,其中包括升级版的自动语音识别模型Whisper3。
- Whisper3具备多语言支持,可将音频内容转录成文本,还具备独特的时间戳功能,适用于制作字幕。
- OpenAI计划未来向用户开放Whisper3的API,以推动语音处理应用的发展。
在OpenAI的开发者日活动中,该人工智能初创公司发布了一系列开源模型,其中包括了升级版的自动语音识别(ASR)模型——Whisper3。这一模型具备多语言支持,可以将音频内容快速准确地转录成文本,并具备独特的时间戳功能,使其适用于制作字幕等应用。
最初,Whisper模型主要针对英语应用,但随着时间的推移,它经过升级,已经支持多种语言,尽管具体支持的语言并未明确提及。该模型以宽松的许可协议在GitHub上开源,因此开发者可以轻松获取并使用它,被誉为目前最出色的转录工具之一。
Whisper3的工作原理涉及将音频分段成30秒的片段,然后通过编码器和解码器将其转化为文本字幕。此外,该模型还具备语言识别功能,有助于实现多语言语音转录和翻译成英语。有趣的是,最初计划将Whisper模型与ChatGPT集成,使用户能够通过语音直接与聊天机器人交流,但后来OpenAI决定将该模型直接向公众开放。
OpenAI之所以选择开源Whisper3,是为了为构建有用的语音处理应用和进一步的鲁棒语音处理研究提供基础。该模型经过了大规模数据集的训练,包括来自互联网的超过68万小时的数据,其中三分之一来自非英语来源。
OpenAI计划未来将Whisper3的API向用户开放,这将为开发者和研究人员提供更多机会,以创造创新的语音处理应用,推动语音技术的发展。
0000
评论列表
共(0)条相关推荐
英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8Ttoken上完成了训练。值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。论文地址:https://arxiv.org/abs/2402.16819在7个评估基准上,与同等参数规模的模型相比,Nemotron-415B表现出色。甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。站长网2024-03-01 09:37:300000一个算命准确度高达78%的AI,让网友都当上了赛博阎王
咱中国人爱算命这事,是刻在骨子里的执念。出门前要看看黄历、办公室要讲风水、就连谈恋爱换工作也要算算领导和对象的星座和八字合不合适。算命姿势也是无奇不有,用八字星座塔罗牌已属过去式,寺庙求签不够潮。这不,有位中国人就在ChatGPT上训练了一个“算命专用AI”——然后迅速成为GPTs中文榜排名第一的应用。站长网2023-12-22 16:23:030000Gartner 预测 2023 年全球 IT 支出将增长 4.3%:生成式 AI 尚未产生重大影响
根据市场调查机构Gartner发布的预测数据,到2023年,全球IT支出预计将达到4.7万亿美元,较2022年增长4.3%。报告指出,企业首席信息官(CIO)在争夺IT人才的竞争中失利,将更多的重心转向实现自动化和效率的技术上,用更少的员工推动更大规模的增长。站长网2023-07-20 17:41:450000伯克利研究人员推出AI智能体Dynalang:可接收复杂指令
加州大学伯克利分校研究人员推出了一种名为Dynalang的智能体,这是一种通过在线体验获取世界语言和视觉模型的智能体,并利用该模型来理解人类行为。站长网2023-08-08 10:05:540001联手华为共同打造!中国电信发布超级智算平台:端到端自主可控
快科技11月12日消息,从人民邮电报官方公众号获悉,在2023广东数字经济发展论坛暨广东省制造业数字化转型论坛上,中国电信重磅发布了广东电信超级智算平台”。据介绍,该平台由中国电信联合华为共同打造,是当前全国最大的省级智算平台,同时也是端到端自主可控的智算平台。电信表示:通过坚持生态开放、使能伙伴的原则,聚合产业上下游伙伴,电信自主孵化与引入行业大模型结合,使能广东千行百业数智化转型。”站长网2023-11-12 15:21:230000