开源语音转字幕软件Whisper 可识别多种语种
Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。

项目地址:https://github.com/openai/whisper
Whisper 的核心功能是语音识别。对于学生和工作人员来说,它可以帮助快速将会议、讲座、课堂录音整理成文字稿。对于影视爱好者来说,它可以自动生成无字幕资源的字幕,无需等待字幕组发布字幕。对于外语口语学习者来说,使用 Whisper 翻译发音练习录音可以检验口语发音水平。
与一些商业公司提供的联网语音识别服务不同,Whisper 完全在本地运行,无需联网,充分保障个人隐私,并且具有高准确率。以我自己录制的一段音频为例,长度为5分钟,约400多个字,使用 Whisper 的中等模式进行识别,仅有两个英文单词识别错误,而这两个错误是由于发音问题导致的。
下载 Whisper 模型的方式是使用 Const-me 项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases
核心功能:
多语种语音识别:Whisper 可以准确识别多种语种的语音输入,包括英语和其他语种。
语音翻译:用户可以使用 Whisper 将输入的非英语语音实时翻译成英语文本。
语言识别:Whisper 能够自动检测输入语音的语种,并进行相应的处理和识别。
多任务处理:Whisper 可以同时处理多项语音处理任务,取代传统语音处理流程的多个阶段。
高鲁棒性:Whisper 在大规模多样化的语音数据集上进行训练,具有较强的鲁棒性和准确性。
Instagram正开发Threads API 有助丰富应用生态
InstagramThreads平台开放API引发关注,这一举措将支持开发者构建更多丰富的应用和用户体验。InstagramCEOAdamMosseri近日在社交媒体上表示,ThreadsAPI正在开发过程中。站长网2023-10-30 10:02:000000京东云言犀推出文旅服务数字人“花木兰”
京东云言犀数字人花木兰正式入职大同文旅,这标志着大同文旅与京东云合作推出首个文旅服务数字人。数字人花木兰通过京东云言犀技术支持,能够向游客讲解大同的历史和景点,以中英双语进行交流。站长网2024-04-26 22:26:060001对标GPT-4!中国移动九天大模型通过双备案
快科技4月4日消息,日前,国家网信办公布已备案大模型清单,中国移动九天自然语言交互大模型”名列其中,标志着中国移动九天AI大模型可正式对外提供生成式人工智能服务。中国移动表示,这是同时通过国家生成式人工智能服务备案”和境内深度合成服务算法备案”双备案的首个央企研发的大模型。站长网2024-04-08 12:41:430001事关全淘系中小商家,阿里妈妈发布新产品,带来哪些利好?
回归淘宝,是今年以来阿里确定的重要基调,中小商家重新站上C位,针对他们的一系列利好措施在过去大半年密集释放。但对于很多中小商家来说,在一个成熟的电商平台经营,主要难点在于:存在经营门槛、找不到资源投入的方向,也不知道如何对生意进行有效的复盘和优化。站长网2023-08-12 10:05:460000128GB iPhone面临存储危机:苹果AI要求预留7GB空间
快科技1月5日消息,AppleIntelligence英语版本已经上线,支持iPhone15Pro、iPhone15ProMax、iPhone16、iPhone16Plus、iPhone16Pro和iPhone16ProMax等机型。站长网2025-01-06 09:05:040000