多模态神经网络SALMONN 能够理解声音世界的AI模型
站长网2023-10-25 12:56:351阅
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf
SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。
论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。
0001
评论列表
共(0)条相关推荐
智源研究院推出text-to-3D生成模型 GeoDream
近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D资产。与传统的方法不同,GeoDream通过解耦的方式利用2D和3D先验,解决了3D结构不一致性的问题,并支持导出高保真的texturemeshes和高分辨率的渲染图片。站长网2024-01-16 10:08:170000Transformer在GitHub上星标破10万大关
今天,NLP领域的主流模型Transformer在GitHub上星标破10万大关,成为AI领域的基石王者,也是继Tensorflow和Auto-GPT之后第三个突破10万星的机器学习库。Transformer的成功标志着AI领域的技术进步和开源社区的发展。站长网2023-05-18 14:02:210001OpenAI董事会迎来新成员,Sam Altman回归及三位女性强人加盟
OpenAI董事会最新宣布了重要变动,标志着SamAltman的回归和三位杰出女性成员的加盟。这一决定不仅使得董事会的规模达到了八名成员,还为公司未来的发展注入了新的活力。备受瞩目的是SamAltman的回归,他曾在OpenAI有过卓越的贡献,而此次的回归将为公司带来更多战略性的领导力。同时,三位新加入的女性成员也给董事会注入了更多的多样性和专业经验。站长网2024-03-11 09:24:570001余承东终端业务职位变动:仍是的一把手!
快科技5月1日消息,根据最新公布的业绩报告,华为2024年一季度收入约1784.5亿元,同比增长36.66%,归母净利润约196.5亿元,同比增长约564%,净利润率11%。与此同时,有媒体报道称,余承东将卸任华为终端BGCEO一职,同时继续担任终端BG董事长,而原华为终端BG首席运营官何刚接替余承东担任终端BGCEO。0000Anthropic 开始给 Claude 搞“语音模式”了
Anthropic已开始为其Claude聊天机器人应用程序推出一项名为“语音模式”的新功能。根据Anthropic在社交平台X上的官方账号以及公司官网更新的文档,这项“语音模式”(目前为测试版)允许Claude移动应用用户与Claude进行“完整的语音对话”。该功能将在接下来的几周内以英文形式陆续上线。站长网2025-05-28 16:57:180000