音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频
**划重点:**
1. 🤖 SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。
2. 🎙️ 该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAI Whisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。
3. 📊 在经过激活调整阶段后,SALMONN框架在训练任务中取得了竞争性的性能,包括音频字幕、语音翻译和识别,但在不经过激活调整的情况下,对于跨模态任务的性能下降明显,激活调整阶段的加入显著提高了性能。
近日,一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。
SALMONN,全称Speech Audio Language Music Open Neural Network,是一个单一的音频-文本多模型大型语言模型框架。它的独特之处在于,它整合了语音和音频编码器与预训练的基于文本的大型语言模型,形成了一个统一的音频-文本多模型。这使得大型语言模型能够直接理解和处理通用音频输入,从而在多种音频和语音任务中取得竞争性的性能,包括问题回答、语音识别和翻译、说话者验证、情感识别以及音频和音乐字幕等。
SALMONN的核心架构包括两个听觉编码器:一个用于非语音BEATs音频编码器,另一个来自OpenAI Whisper框架的语音编码器。这两个编码器通过自监督迭代学习方法进行训练,以提取语音和非语音高级音频语义。框架还采用窗口级Q-Former结构,用于在帧级别作为连接模块,将Q-Former生成的序列与文本指令提示相结合,然后提供为LoRA适应方法的输入,以生成所需的响应。
在训练方法方面,SALMONN框架采用了三阶段的跨模态训练方法。预训练阶段使用大量音频字幕和语音识别数据对LoRA和Q-Former组件进行预训练。指令微调阶段使用音频事件、音乐任务和语音事件的列表对音频-文本指令进行微调。最后,激活调整阶段针对音频字幕和语音识别任务的过拟合问题进行了调整。
SALMONN框架通过三个不同级别的基准测试来评估其认知听觉能力,涵盖了从简单的翻译和音频字幕到复杂的语音-音频共同推理和基于音频的叙事任务。结果表明,在第一级别的任务上,SALMONN框架在不经过激活调整的情况下取得了竞争性的结果。然而,对于第二和第三级别的任务,没有激活调整,SALMONN框架在任务上过度拟合,性能显著下降。但是,通过激活调整,结果得到了显著改善。
SALMONN框架标志着大型语言模型迈向通用听觉能力的重要一步。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。
OpenAI联合创始人:GPT-4性能在 “有限的数据量” 下面临挑战
划重点:🔹OpenAI的JohnSchulman对GPT-4的性能进行了评估,指出其面临有限训练数据的挑战。🔹Schulman提到了GPT-4在不同类型的预训练数据上泛化的挑战,以及大型模型在使用较少数据量时的效率优势。🔹OpenAICEOSamAltman的言论和公司对人工智能发展的雄心也是该报道的重要内容。站长网2024-05-16 17:24:060000京东要求第三方卖家48小时内发货
京东近日对承诺时效(Promise)功能进行升级,旨在解决此前京东部分第三方卖家存在的拖延发货或虚假发货的情况。此次升级将强制要求所有实物履约商品在京东平台上架后必须设置承诺发货时效,并将商品主要类目发货时效可支持绑定的上限设置为48小时发货。此外,承诺时效还将与前台流量推荐绑定,时效越快越能有机会在前台获得更多流量扶持。站长网2023-04-12 12:04:300000消息称OpenAI取消更高效的GPT-4级别AI模型“Arrakis”开发
划重点:1.🚫OpenAI停止了“Arrakis”项目的开发,因为其质量不符合要求,这一模型原本旨在比GPT-4更高效。2.💡Arrakis的设计采用了稀疏原则,只激活部分神经网络,与传统“密集模型”不同,但在后期测试中表现不佳。3.🚀尽管“Arrakis”项目失败,OpenAI计划将其经验应用于其他模型,如计划中的Gobi多模态模型,同时继续改进GPT-4。站长网2023-10-18 23:24:320000次果生意:电商平台上为什么难以买到好水果?|界面315
几年前,家住四川眉山的飞哥因家中的土地无人打理,他便返乡种起了柑橘。靠着这20亩地,他每年都能收获6万斤柑橘,其中有粑粑柑、不知火、爱媛等近年的网红品种。站长网2023-05-25 05:04:010001微信公众平台将开展违规营销内容专项治理
微信公众平台运营中心发布公告称,近期国家市场监督管理总局发布《互联网广告管理办法》,于5月1日起实施,公众号运营者发布的营销内容需遵守相关规定。公众号运营者需对发布内容进行严格审查,满足合规性要求。通过各种形式推销商品或者服务,并附加购物链接等购买方式的,应当显著标明“广告”字样。站长网2023-04-25 15:31:320000