清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN
站长网2023-08-22 18:50:310阅
SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型(LLM),能够处理语音、音频事件和音乐输入。
相比于只能处理语音或音频事件的模型,SALMONN 能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频 - 语音推理等新兴能力。可以说,SALMONN 为 LLM 提供了 "听觉",使其具备了认知听觉能力,这是通向听觉启发的人工通用智能的一步。
Github仓库:https://github.com/bytedance/SALMONN/
Demo链接:https://bytedance.github.io/SALMONN/
该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知,使得模型可以直接从物理世界获取知识。
SALMONN 能够胜任英语语音识别、语音翻译、情感识别、音频字幕生成等任务,并展现了多种在模型训练中没有学习过的多语言和跨模态能力。研究团队将在近期开源 SALMONN v1.0模型及相关代码,并持续更新模型,为建设开源的通用人工智能做出贡献。
核心功能:
1. 处理语音、音频事件和音乐输入。
2. 实现多语言语音识别和翻译。
3. 进行音频 - 语音推理。
4. 支持根据文本和语音命令进行操作。
0000
评论列表
共(0)条相关推荐
DaVinci Resolve 18.5 正式版发布:加入新型 AI 工具和 100 多项全新功能
视频编辑软件DaVinciResolve18.5自2023年4月起一直处于测试阶段,日前最终版本正式结束测试并可供下载。DaVinciResolve是适用于MacOS、Windows和Linux的调色和非线性编辑的影片剪辑软件,最初由daVinciSystems开发,后于2009年被BlackmagicDesign收购。站长网2023-07-24 18:00:420001腾讯上架全新反诈“神器” 赶快分享家庭群
快科技12月2日消息,如果有一天你突然遇到诈骗,你知道应该马上做什么事情吗?或者说,你能清楚地知道自己正在遭遇诈骗吗?现在,腾讯推出了腾讯科技反诈”小程序,专门为大家提供了一套指引手册。不论是发现资金被骗,还是无法判断是否遇到了诈骗,或是遇到了银行卡被冻结”等棘手问题,都可以在这个小程序中找到指引。站长网2023-12-02 15:11:290000特斯拉Cybertruck儿童车4月23日发售:LED大灯、续航19公里
快科技4月19日消息,特斯拉儿童版Cybertruck即将于4月23日10:00正式登陆中国市场,为6至12岁的孩子们带来前所未有的科技驾驶体验。这款儿童车完美继承了特斯拉Cybertruck皮卡的经典造型,同时又融入了诸多贴心的设计元素,确保了孩子们在享受驾驶乐趣的同时,也能得到全方位的安全保障。车身细节处理得恰到好处,尤其是LED头尾灯,不仅提升了户外活动的安全性,还增添了一份科技魅力。站长网2024-04-19 13:58:090000突然!巴菲特疯狂减持近半苹果股份 但斌:有点吃惊 但没有跟随减持的想法
快科技8月4日消息,东方港湾董事长但斌微博发文称:看到伯克希尔持有的苹果股份从第一季度的7.89亿股下降至约4亿股,降幅接近50%”的新闻,减持一点不意外,但减持这么多感觉还是有点吃惊。站长网2024-08-04 12:07:460000OpenAI 领导者表示:我们非常重视安全
划重点:🚨两位AI安全高管离职:OpenAI的联合创始人兼首席科学家IlyaSutskever和“超级对齐团队”负责人JanLeike辞职。🔍团队解散与安全担忧:Leike对公司领导层在AI安全方面的重视程度表示失望,认为公司对人工通用智能(AGI)的安全问题关注不足。🛠️公司回应与安全措施:CEO和总裁回应称,公司已建立安全部署的基础设施,并持续改进AI模型行为和滥用监控。站长网2024-05-20 22:10:560000