WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录
划重点:
- WhisperKit是Argmax公司推出的开源项目,旨在实现苹果芯片上的实时语音转文本,通过多项优化提高性能。
- 该项目采用MIT许可证,提供Swift包、iOS和macOS示例应用以及Python工具,为开发者提供最大便利。
- WhisperKit的设计原则包括灵活性、可扩展性、可预测性,以及专注于实时性能。
由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。
WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。
简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。
该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。
WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。
在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。
为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。
除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。
在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。
项目入口:https://top.aibase.com/tool/whisperkit
看KOL向你发起“搭子”邀请
不知从何时起,“搭子”这个词汇悄悄流行起来。当我们打开社交软件输入“搭子”一词,能很轻松的发现一群关于寻找搭子的笔记。“搭子”类型繁多,几乎涵盖年轻人生活的方方面面。饭搭子、学习搭子、拍照搭子、跑步搭子、摸鱼搭子、追剧搭子、游戏搭子……(图源网络)大学中如表白墙这类公开的信息漏出渠道,也成为年轻人们寻找搭子的重要阵地。站长网2023-05-23 14:00:4800007天涨粉555万,一条视频获赞794万,《逃出大英博物馆》凭什么?
“你要带我回中国吗?”最近,短剧《逃出大英博物馆》火了,正片上线5天,单单抖音同名话题的播放量就超过10亿次,央视网、新华日报等官媒也纷纷点赞。《逃出大英博物馆》以拟人化的手法,讲述了小玉壶逃出大英博物馆后,偶遇在海外工作的中国记者并在他的帮助下回家的故事。小玉壶的一句“家人!我在外面流浪了好久,我迷路了”引爆了不少网友的泪点。煎饼果仔,赞10万站长网2023-09-05 09:10:460000羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品
开源羊驼大模型LLaMA上下文追平GPT-4,只需要一个简单改动!MetaAI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。与预训练相比,成本忽略不计。扩展上下文窗口,就意味着AI的“工作记忆”容量增加,具体来说可以:支持更多轮对话,减少遗忘现象,如更稳定的角色扮演输入更多资料完成更复杂的任务,如一次处理更长文档或多篇文档站长网2023-06-29 12:13:360001广电总局:互联网电视应用启动时间应不大于5秒
今日,国家广播电视总局组织审查了《有线电视业务技术要求》《IPTV业务技术要求》《互联网电视业务技术要求》等三项标准文件,现批准为中华人民共和国广播电视和网络视听推荐性行业标准,予以发布。其中,《互联网电视业务技术要求》表示,互联网电视应用启动时间宜小于3s,应不大于5s。站长网2023-11-27 13:56:370000必应聊天Bing Chat桌面端语音输入功能上线
必应聊天(BingChat)宣布,已支持语音输入,目前支持英语,日语,法语,德语和普通话。微软透露,许多用户喜欢在移动设备上使用语音输入来进行聊天。为了满足这一需求,微软将必应聊天的语音输入功能扩展到桌面端。现在,用户只需点击对话框中的麦克风按钮,即可在桌面端使用语音输入功能,轻松实现语音聊天。站长网2023-06-12 17:53:230000