音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频
**划重点:**
1. 🤖 SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。
2. 🎙️ 该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAI Whisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。
3. 📊 在经过激活调整阶段后,SALMONN框架在训练任务中取得了竞争性的性能,包括音频字幕、语音翻译和识别,但在不经过激活调整的情况下,对于跨模态任务的性能下降明显,激活调整阶段的加入显著提高了性能。
近日,一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。
SALMONN,全称Speech Audio Language Music Open Neural Network,是一个单一的音频-文本多模型大型语言模型框架。它的独特之处在于,它整合了语音和音频编码器与预训练的基于文本的大型语言模型,形成了一个统一的音频-文本多模型。这使得大型语言模型能够直接理解和处理通用音频输入,从而在多种音频和语音任务中取得竞争性的性能,包括问题回答、语音识别和翻译、说话者验证、情感识别以及音频和音乐字幕等。
SALMONN的核心架构包括两个听觉编码器:一个用于非语音BEATs音频编码器,另一个来自OpenAI Whisper框架的语音编码器。这两个编码器通过自监督迭代学习方法进行训练,以提取语音和非语音高级音频语义。框架还采用窗口级Q-Former结构,用于在帧级别作为连接模块,将Q-Former生成的序列与文本指令提示相结合,然后提供为LoRA适应方法的输入,以生成所需的响应。
在训练方法方面,SALMONN框架采用了三阶段的跨模态训练方法。预训练阶段使用大量音频字幕和语音识别数据对LoRA和Q-Former组件进行预训练。指令微调阶段使用音频事件、音乐任务和语音事件的列表对音频-文本指令进行微调。最后,激活调整阶段针对音频字幕和语音识别任务的过拟合问题进行了调整。
SALMONN框架通过三个不同级别的基准测试来评估其认知听觉能力,涵盖了从简单的翻译和音频字幕到复杂的语音-音频共同推理和基于音频的叙事任务。结果表明,在第一级别的任务上,SALMONN框架在不经过激活调整的情况下取得了竞争性的结果。然而,对于第二和第三级别的任务,没有激活调整,SALMONN框架在任务上过度拟合,性能显著下降。但是,通过激活调整,结果得到了显著改善。
SALMONN框架标志着大型语言模型迈向通用听觉能力的重要一步。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。
全球第一CRM厂商,将类ChatGPT功能集成在CRM中
全球排名第一CRM厂商Salesforce在官网宣布,推出生成式AI助手EinsteinCopilot,并将其集成在CRM等产品矩阵中,帮助用户大幅度提升工作效率。据悉,EinsteinCopilot提供了类似ChatGPT的功能,用户通过文本对话的方式就能自动生成销售电子邮件、回复客户提问、生成创意营销文案、生成合同等,例如,帮我生成一份关于鞋子的社交平台营销文案。站长网2023-09-16 12:23:000000索尼互动娱乐公司收购基于 AI 的视频处理解决方案公司 iSIZE
索尼公司今天宣布已经签署协议,将收购总部位于英国的公司iSIZE,该公司专注于「为视频交付提供深度学习技术。iSIZE为媒体和娱乐行业构建了基于AI的解决方案,以实现比特率的节省和质量的改善,」该公司解释说。由于合同承诺,购买的费用尚未透露。图片来自Sony站长网2023-11-03 10:46:470000今日AI:GPT-4.5意外曝光可能6月发布、UP主借AI识别情绪播放量186万、全球首个AI程序员诞生
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📢一分钟速看版▶OpenAI的GPT-4.5Turbo意外曝光,可能6月发布▶全球首个AI程序员诞生码农饭碗被砸站长网2024-03-13 15:22:530000AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里
【新智元导读】在社交媒体上发照片要谨慎了,AI工具一眼就能识破你的位置!随手在网络上发布的一张照片,能暴露多少信息?外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战,网友提供照片,他来猜测照片的具体拍摄地,有些照片甚至还能猜到具体的航班细节。是不是细思极恐?站长网2024-01-15 15:25:590001微信内测图片跳转小程序功能
据澎湃新闻报道,微信开始在小范围内测试一项新功能,即通过图片直接跳转到小程序。具体来说,当在微信小程序页面截图并将图片转发给微信好友或群聊,包括“文件传输助手”时,自己或对方点开大图查看时,会在右下方新增一个跳转按钮,对应图片所关联的小程序页面。这项功能目前尚处于小范围测试阶段。站长网2023-10-10 17:32:030000