多模态神经网络SALMONN 能够理解声音世界的AI模型

站长网2023-10-25 12:56:351阅

SALMONN是一个多模态神经网络，能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入，并在多种语音和音频任务上取得竞争性表现。

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf

SALMONN采用了两个互补的音频编码器，一个用于处理语音，另一个用于处理非语音音频事件，以实现对各种音频任务的优越性能。

论文提出了激活调整阶段，以解决SALMONN在训练中过度拟合到某些任务的问题，该阶段能够使SALMONN具备跨模态的新能力，如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。

多模态神经网络SALMONN能够理解声音世界的AI模型

0001

评论列表

共(0)条

相关推荐

站长资讯
智源研究院推出text-to-3D生成模型 GeoDream
近日，智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream，能够将输入的文字描述转化为高质量和多视角一致性的3D资产。与传统的方法不同，GeoDream通过解耦的方式利用2D和3D先验，解决了3D结构不一致性的问题，并支持导出高保真的texturemeshes和高分辨率的渲染图片。
站长网2024-01-16 10:08:17
0000
站长资讯
Transformer在GitHub上星标破10万大关
今天，NLP领域的主流模型Transformer在GitHub上星标破10万大关，成为AI领域的基石王者，也是继Tensorflow和Auto-GPT之后第三个突破10万星的机器学习库。Transformer的成功标志着AI领域的技术进步和开源社区的发展。
站长网2023-05-18 14:02:21
0001
站长资讯
OpenAI董事会迎来新成员，Sam Altman回归及三位女性强人加盟
OpenAI董事会最新宣布了重要变动，标志着SamAltman的回归和三位杰出女性成员的加盟。这一决定不仅使得董事会的规模达到了八名成员，还为公司未来的发展注入了新的活力。备受瞩目的是SamAltman的回归，他曾在OpenAI有过卓越的贡献，而此次的回归将为公司带来更多战略性的领导力。同时，三位新加入的女性成员也给董事会注入了更多的多样性和专业经验。
站长网2024-03-11 09:24:57
0001
余承东终端业务职位变动：仍是的一把手！
快科技5月1日消息，根据最新公布的业绩报告，华为2024年一季度收入约1784.5亿元，同比增长36.66％，归母净利润约196.5亿元，同比增长约564％，净利润率11％。与此同时，有媒体报道称，余承东将卸任华为终端BGCEO一职，同时继续担任终端BG董事长，而原华为终端BG首席运营官何刚接替余承东担任终端BGCEO。
站长网站长资讯2024-05-02 21:50:04
0000
站长资讯
Anthropic 开始给 Claude 搞“语音模式”了
Anthropic已开始为其Claude聊天机器人应用程序推出一项名为“语音模式”的新功能。根据Anthropic在社交平台X上的官方账号以及公司官网更新的文档，这项“语音模式”（目前为测试版）允许Claude移动应用用户与Claude进行“完整的语音对话”。该功能将在接下来的几周内以英文形式陆续上线。
站长网2025-05-28 16:57:18
0000