音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频
**划重点:**
1. 🤖 SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。
2. 🎙️ 该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAI Whisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。
3. 📊 在经过激活调整阶段后,SALMONN框架在训练任务中取得了竞争性的性能,包括音频字幕、语音翻译和识别,但在不经过激活调整的情况下,对于跨模态任务的性能下降明显,激活调整阶段的加入显著提高了性能。
近日,一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。
SALMONN,全称Speech Audio Language Music Open Neural Network,是一个单一的音频-文本多模型大型语言模型框架。它的独特之处在于,它整合了语音和音频编码器与预训练的基于文本的大型语言模型,形成了一个统一的音频-文本多模型。这使得大型语言模型能够直接理解和处理通用音频输入,从而在多种音频和语音任务中取得竞争性的性能,包括问题回答、语音识别和翻译、说话者验证、情感识别以及音频和音乐字幕等。

SALMONN的核心架构包括两个听觉编码器:一个用于非语音BEATs音频编码器,另一个来自OpenAI Whisper框架的语音编码器。这两个编码器通过自监督迭代学习方法进行训练,以提取语音和非语音高级音频语义。框架还采用窗口级Q-Former结构,用于在帧级别作为连接模块,将Q-Former生成的序列与文本指令提示相结合,然后提供为LoRA适应方法的输入,以生成所需的响应。
在训练方法方面,SALMONN框架采用了三阶段的跨模态训练方法。预训练阶段使用大量音频字幕和语音识别数据对LoRA和Q-Former组件进行预训练。指令微调阶段使用音频事件、音乐任务和语音事件的列表对音频-文本指令进行微调。最后,激活调整阶段针对音频字幕和语音识别任务的过拟合问题进行了调整。
SALMONN框架通过三个不同级别的基准测试来评估其认知听觉能力,涵盖了从简单的翻译和音频字幕到复杂的语音-音频共同推理和基于音频的叙事任务。结果表明,在第一级别的任务上,SALMONN框架在不经过激活调整的情况下取得了竞争性的结果。然而,对于第二和第三级别的任务,没有激活调整,SALMONN框架在任务上过度拟合,性能显著下降。但是,通过激活调整,结果得到了显著改善。

SALMONN框架标志着大型语言模型迈向通用听觉能力的重要一步。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。
还充电焦虑吗?今年全国充电桩暴增243.2万台 累计达764.2万台
快科技10月11日消息,中国充电联盟公布了2023年9月全国电动汽车充换电基础设施运行情况。数据显示,2023年1-9月,充电基础设施增量为243.2万台,新能源汽车销量627.8万辆,桩车增量比为1:2.6,充电基础设施建设能够基本满足新能源汽车的快速发展。0000这一次,大模型颠覆广告行业!
百度用大模型重构一切,包括现金奶牛业务。就在刚刚,百度营销官宣接入文心一言,推出新一代营销平台轻舸,也是全球首个AINative的营销平台。这么说吧,是有点颠覆互联网广告投放模式内味儿了:营销方案不用再想到头秃,把需求“说”给大模型听,就能快速得到营销方案。投放广告的全流程,同样动动嘴就能搞定。效果嘛,直接来看数据:站长网2023-09-08 09:03:330000双11是怎么被“拉近”的?
以双11为代表的零售线上化,是过去十多年中国零售商业的大趋势。但到了今年双11,线上零售略显疲态,线下本地商家搭乘即时零售的东风,成为新的驱动力。大促期间,各大电商平台纷纷打出低价牌,并搭配官方直降等玩法。轰轰烈烈的价格战之后,电商平台并没有像往年那样晒出双11成绩单,而是重点宣传其他维度的亮点,比如有多少个品牌交易额破亿、破十亿等。站长网2023-11-15 18:08:580000腾讯绝艺AI登顶日本麻将平台 AI决策能力提升
站长网2023-07-12 16:23:470000日本拟设置「AI 战略会议」:着眼于人工智能潜力和风险推进举措
据共同社消息,日本首相岸田文雄5月9日透露了方针,拟设置磋商制定利用人工智能(AI)相关规则等的「AI战略会议」。当天在官邸与研究人员和创业人才等开会时,岸田文雄称「会着眼于AI的潜力和风险推进举措,速度感将是关键」。据报道,战略会议将由技术人员等专家和相关部门的负责人参加。据称,战略会议将思考在教育现场的利用方法、与著作权的关系,并探讨关于AI的国家战略。站长网2023-05-10 10:54:010000