多模态神经网络SALMONN 能够理解声音世界的AI模型
站长网2023-10-25 12:56:351阅
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。
论文地址:https://arxiv.org/pdf/2310.13289v1.pdf
SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。
论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。
0001
评论列表
共(0)条相关推荐
OpenAI「登月计划」剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位
通用AGI,或许近在咫尺。OpenAI下一步「登月计划」,就是实现人类期待已久的超级人工智能,而到达这一步的前提是——解决超级AI对齐问题。就在前几天,首席科学家Ilya带头OpenAI超级对齐团队取了的实质性成果。他们发表的最新论文,首次确定了超级AI对齐的研究方向:即小模型监督大模型。站长网2023-12-18 18:57:460002同花顺宣布完成鸿蒙原生应用Beta版开发
同花顺与华为宣布,他们已经完成了同花顺鸿蒙原生应用Beta版本的开发,并计划继续推进全量版本的研发。这次合作是同花顺与华为在金融科技领域的深度合作,旨在为投资者和金融机构客户提供更智能、更安全的服务。0000真我GT7 Pro宣布11月4日发布:全球首发Eco苍穹屏
真我手机官方宣布,真我GT7Pro将于11月4日下午2点正式亮相。徐起,真我realme的副总裁兼全球营销总裁和中国区总裁,对这款新机寄予厚望,宣称它将挑战同价位中性能最强、影像最佳的手机地位。0000杨元庆:联想已度过行业下行周期 要把握混合式人工智能机遇
站长之家(ChinaZ.com)5月23日消息:联想集团在2023/24财年的业绩报告中展现了其强劲的增长势头。在第四财季,公司实现了994亿人民币的营收,同比增幅接近10%。这一增长得益于公司主营业务的全面恢复,净利润更是达到了17.8亿人民币,同比增长高达118%。特别值得关注的是,联想集团在PC业务之外的领域也取得了显著进展,其业务占比达到了45%,创下了历史新高。站长网2024-05-24 10:21:020000体验完7款AI产品,我找到了提升工作效率的新窍门
大模型的时代似乎真正到来了。伴随着8月31日凌晨百度文心一言的正式开放,首批语言大模型产品获批名单也终于出炉。它们共有11家,基本都是生成式AI,主要面向C端用户开放。也就是说,从这个秋天开始,每个人都可以直接使用到国内最前沿的AI产品,感受新科技的魅力。站长网2023-09-04 09:07:130000