清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN
站长网2023-08-22 18:50:310阅
SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型(LLM),能够处理语音、音频事件和音乐输入。
相比于只能处理语音或音频事件的模型,SALMONN 能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频 - 语音推理等新兴能力。可以说,SALMONN 为 LLM 提供了 "听觉",使其具备了认知听觉能力,这是通向听觉启发的人工通用智能的一步。
Github仓库:https://github.com/bytedance/SALMONN/
Demo链接:https://bytedance.github.io/SALMONN/
该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知,使得模型可以直接从物理世界获取知识。
SALMONN 能够胜任英语语音识别、语音翻译、情感识别、音频字幕生成等任务,并展现了多种在模型训练中没有学习过的多语言和跨模态能力。研究团队将在近期开源 SALMONN v1.0模型及相关代码,并持续更新模型,为建设开源的通用人工智能做出贡献。
核心功能:
1. 处理语音、音频事件和音乐输入。
2. 实现多语言语音识别和翻译。
3. 进行音频 - 语音推理。
4. 支持根据文本和语音命令进行操作。
0000
评论列表
共(0)条相关推荐
荣耀手表4首发一表双待功能 7月12日正式发布
荣耀将在7月12日举行荣耀MagicV2暨全场景新品发布会,届时将发布荣耀MagicV2折叠屏手机、荣耀手表4、荣耀平板MagicPad以及荣耀智慧屏5等多款产品。其中,荣耀手表4将首发一表双待功能,支持双卡双待和消息提醒,续航能力也将得到提升。荣耀手表4的续航表现非常不错,即使在双卡双待模式下也能达到两位数的续航时间。站长网2023-07-12 09:09:580002李彦宏:百度文心一言4.0中文已超过ChatGPT 4.0
快科技3月10日消息,日前,百度创始人李彦宏在央视2024《对话开年说》节目中谈到了百度文心一言。李彦宏表示,文心一言4.0在中文上已经超过ChatGPT4.0。比如写藏头诗,现在很多大模型都能写,但如果要求它写一个《沁园春》词牌的词,ChatGPT4.0就完全搞不懂,它不知道第一句话应该是四个字还是五个字。0000Topaz发布高清修复软件Photo AI V2 降噪算法显著提升
要点:TopazLabs发布了全新版本的PhotoAI软件,包含大量改进和功能增强。PhotoAIV2在降噪和锐化算法上有显著提升,并引入了调整光线和颜色平衡功能。软件使用AI进行图像分析,可用于提升低分辨率图像、去除噪音、改善曝光不足或过度曝光等,具有广泛的应用。站长网2023-10-20 11:03:400001手机厂商竞争,“大V”们伤亡惨重
最近,手机圈里的火药味有点浓。最受关注的是,几家手机厂商互怼,以及厂商们竞争还没对自身产生什么影响,一些大v却先受伤,被“干进去了”。简单看下时间线:1月3日小米Redmi市场总经理、品牌发言人王腾证实了某博主的爆料,爆料的内容是某手机厂商的水军团队负责人被抓。王腾表示:“据我所知,描述都属实。打造健康的舆论环境,给法务部@小米品牌安全点赞”。1月5日一加0000背靠10亿用户,视频号如何做好内容生态?
斯蒂芬·茨威格在《人类的群星闪耀时》中写道,那些历史的尖峰时刻都需要太长的酝酿时间每一桩影响深远的事件都需要一个发展的过程。站长网2023-07-10 09:15:520000