开源语音转字幕软件Whisper 可识别多种语种
Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。
项目地址:https://github.com/openai/whisper
Whisper 的核心功能是语音识别。对于学生和工作人员来说,它可以帮助快速将会议、讲座、课堂录音整理成文字稿。对于影视爱好者来说,它可以自动生成无字幕资源的字幕,无需等待字幕组发布字幕。对于外语口语学习者来说,使用 Whisper 翻译发音练习录音可以检验口语发音水平。
与一些商业公司提供的联网语音识别服务不同,Whisper 完全在本地运行,无需联网,充分保障个人隐私,并且具有高准确率。以我自己录制的一段音频为例,长度为5分钟,约400多个字,使用 Whisper 的中等模式进行识别,仅有两个英文单词识别错误,而这两个错误是由于发音问题导致的。
下载 Whisper 模型的方式是使用 Const-me 项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases
核心功能:
多语种语音识别:Whisper 可以准确识别多种语种的语音输入,包括英语和其他语种。
语音翻译:用户可以使用 Whisper 将输入的非英语语音实时翻译成英语文本。
语言识别:Whisper 能够自动检测输入语音的语种,并进行相应的处理和识别。
多任务处理:Whisper 可以同时处理多项语音处理任务,取代传统语音处理流程的多个阶段。
高鲁棒性:Whisper 在大规模多样化的语音数据集上进行训练,具有较强的鲁棒性和准确性。
未来已来:kerqu.AI软件揭秘,科技届的“黑科技”大公开!
在这个数字化时代,AI已经成为了各行各业提升营销效果和提升视觉吸引力的重要手段。如果你是一名电商经营者、社交媒体经理或市场营销专家,那么Kerqu.AI将会是你的得力助手。今天,我们就来一起揭开Kerqu.AI的神秘面纱,看看它如何助你一臂之力!1.AI换模特:精准无瑕的虚拟形象站长网2024-08-05 14:14:090000618前夕,视频号悄悄杀入本地生活
视频号,想要更多。本地生活的战事从未熄火。有的进攻。背靠物流配送,京东试点同城外卖业务,天猫、盒马上线“即时配送”服务;以内容做杠杆,抖音深耕团购到店,快手上线本地生活小程序,小红书尝试种草拔草链路闭环,招募到店餐饮商家。有的防守。美团上线“特价团购”并放在C位展示,进军同城团购配送,重启美团圈圈提供更优惠价格;阿里旗下到店业务口碑APP正式与高德合并。站长网2023-06-15 10:37:030000分析师:苹果正开发款新Mac Studio 有望今年下半年推出
1月8日消息,据外媒报道,一位长期关注苹果的分析师认为,苹果正在开发一款新的MacStudio,这款设备可能会在2024年下半年推出。然而,市场研究公司集邦咨询(TrendForce)认为,苹果将在今年6月份举办的WWDC(苹果全球开发者大会)大会上推出搭载M3Ultra芯片的新一代MacStudio,其功能可能比预期的更强大。站长网2024-01-08 19:54:400000OpenAI 首席运营官:AI 虽然能创造新的就业机会 但也可能导致一些岗位消失
据WSJ消息,OpenAI首席运营官BradLightcap表示,AI虽然能创造新的就业机会,但也可能淘汰掉一些岗位。「例如每家大公司都有一批专门负责阅读和审查合同以确认收入的人,」Lightcap说:「这种岗位未来可能就没有了。」Lightcap还表示,由于把繁琐的工作交给了AI,员工们每天能节省出一小时,也会因此变得更高效,「我认为这种生产力的爆炸将变成现实。」站长网2023-06-21 14:36:200000前荣耀总经理创办科技创企发布AR眼镜ARknovv A1
据新浪科技消息,28日,由前华为荣耀总经理吴德周创办的AR科技创企致敬未知,在2023ChinaJoy期间宣布推出了他们的AR品牌ARknovv,并推出了两款AR眼镜产品——ARknovvA1及ARknovvA1HUD。站长网2023-07-28 16:07:170002