多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。
能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展(将多模态表征转换为离散 token 并添加到模型的基本词汇表中)来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。
多模态预训练方法具有很强的性能优势(例如,一个模型可以原生理解多种模态),但也有缺点。例如,无法解决如何在预训练后添加新模态的问题,也缺乏灵活性,因为添加另一种模态需要从头开始训练一个新的模型,并进行超参数搜索,以获得模态之间的最佳训练数据混合比。因此,这种解决方案不适合小众模态,特别是 IMU、蛋白质序列等。
或者,将词汇扩展到另一种模态可以在一个从未见过该模态的模型上进行预训练后进行。只在文本模态下训练的解码器模型可以在上下文中遵循指令并从样本中学习,通常是通过微调将另一种模态(如音频或图像功能)嫁接到现有的强大文本骨干上,以利用文本模态的可表达性和人类用户的可控性。这样做的缺点是骨干网络的文本到文本功能会被破坏,由此产生的模型只能执行其经过微调的跨模态任务。
总体来说,无论是预训练还是微调,都需要大量对齐的跨模态数据,因此这两种方法都不适用于没有足够数量以对齐多模态数据的模态。
Google DeepMind 近期提出了模块化设计的新型架构 Zipper,它由多个单模态预训练解码器模型组成。利用丰富的无监督单模态数据,Zipper 可以在单一模态中预训练强大的纯解码器模型,然后利用交叉注意力将多个这样的预训练解码器「压缩」在一起,并利用有限的跨模态数据进行微调,实现多模态生成能力。预训练的纯解码器模型可以在新的多模态组合中灵活地重复使用和再利用。
论文标题:Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities
论文链接:https://arxiv.org/pdf/2405.18669
这是第一项研究灵活组合模态的工作,通过组合单独预训练的单模态解码器来实现多模态生成能力。
虽然 Zipper 架构可在多种模态和两种以上模态的骨干上通用,但这项工作的重点放在了仅融合两种骨干(语音和文本)的实验设置上。论文展示了 Zipper 在同时跨模态生成文本(自动语音识别(ASR)任务)和语音(文本到语音任务(TTS))方面的强大能力。
仅使用部分文本 - 语音对齐数据(低至原始数据的1%)进行的实验表明,首先在无标记数据上对骨干进行单模态预训练,与使用词汇扩展方法进行微调相比,Zipper 可以依赖更少的对齐数据,这为使用解码器 - 解码器架构融合模态提供了可能性,对于成对数据量有限的生成任务非常有用。
接下来,让我们看看论文细节。
模型
Zipper 架构由两个自回归解码器 tower(或主干)组成,它们通过门控交叉注意力层「压缩」在一起。每个骨干使用下一个 token 预测功能分别对单个模态进行训练。
图1显示了 Zipper 架构的概览。与 CALM 类似,在解码器骨干之间的每 i 层都插入了交叉注意力层。在这些有规律交错的层中,一种模态的表征被交叉注意力到另一种模态中。这与 Flamingo [4] 编码器 - 解码器设置不同,后者只在一个 tower(编码器)的最后一层定期交叉注意力到另一个 tower(解码器)的各层。
在交叉注意力过程中,投影层被插入模态之间。从功能上讲,这可以均衡骨干之间的嵌入维度大小差异。从语义上讲,它还能实现从一种模态到另一种模态的表征转换,尤其是当一个或两个骨干被冻结时。此外,在每个骨干网的输入嵌入之后,还直接加入了一个非线性输入投影层,以便更好地调整输入的单模态表征,用于多模态任务。
在第一个 Transformer 块之前(嵌入层之后),插入两个可学习的多层感知器(MLP)投影,然后对每个骨干进行 ReLU 转换:
这样做是为了让单模态表征更好地适应多模态设置。
让 i_A 和 i_B 分别代表 A 层交叉到 B 层和 B 层交叉到 A 层的间隔。将 k 层单模解码器 A 的隐藏表征法称为
,其中 d_A 是 transformer A 的隐藏维度;同样,将 l 层单模解码器 B 的隐藏表征法称为
,其中 d_B 是 transformer B 的相应隐藏维度。设 fcross (Q, K, V ) 是来自 [4] 的门控交叉注意力层,其后是前馈层,Q、K、V 分别是查询、键和值。让
和
分别代表 tower A 和 tower B 的线性前馈投影和全连接投影。
解码器 A 中第 k 层的新表征
。
具体如下:
同样,解码器 B 第 l 层的新表征
为:
最后,每个 tower 以一个 softmax 层(与同 tower 嵌入层共享)结束,以便利用下一个 token 预测任务将隐藏表征投射到(特定模态 /tower)token 词汇的概率分布中。
研究者将交叉注意力机制用于交错序列的自动回归训练,具体做法是只交叉关注原始线性序列中当前位置之前的另一种模态的数据。
在解码过程中,输出模态的序列是指定的(例如,[语音]、[文本]、[文本、语音])。模型以序列中的第一种模态生成输出,直到遇到特殊的句末 token,这时才会切换到序列中的下一种模态。该过程一直持续到序列中的所有模态都被解码为止。虽然可以扩展模型自动选择输出生成的模态,但这一设置的通用化还需要后续的工作。
实验
虽然 Zipper 可以扩展到任意数量的模态,研究者率先评估了语音到文本生成和文本到语音(TTS)生成的自动语音识别(ASR)。
值得注意的是,虽然对 TTS 系统(合成语音)的标准评估依赖于人类反馈(平均意见分数),可以捕捉到语音的许多整体方面(如文本保真度和声音质量等),但这里的 TTS 评估只希望捕捉到架构选择对语义 token 建模和预测能力的影响。
表1列出了 ASR 任务的测试结果:
将 Zipper 与扩展词汇量的单解码器基线进行比较时,可以发现 Zipper 在 test-clean 子集上的性能略好,而在噪音较高的语音 test-other 子集上的性能则略有下降,总体性能相当接近。
表2列出了在 LibriTTS 数据集的 test-clean 分割上进行 TTS 任务的结果。
可以看出,Zipper 模型明显优于单解码器模型,Zipper S/128M unfrozen model 模型提高了13个 WER 点(相对误差减少40%),Zipper L/1B unfrozen model 模型提高了12个 WER 点(相对误差减少38%)。
研究者还观察到,与使用冻结骨干网络相比,在训练过程中解冻语音骨干网络可持续改善所有尺寸 Zipper 模型的性能,这验证了直觉 —— 微调语音骨干网络的参数比仅依赖交叉注意力产生的模态对齐效果更好。
更多研究细节,可参考原论文。
中国信通院:编制纸鸢开放人工智能模型许可证,促大模型落地
据报道,中国信息通信研究院联合产业各方共同编制“纸鸢”开放人工智能模型许可证,旨在为共同打造具有变革意义的大模型开源项目奠定坚实基础。中国信通院云大所开源和软件安全部主任郭雪表示,为充分发挥大型模型的通用性优势,促进大型模型技术在产业中真正落地,中国信息通信研究院联合产业各方共同编制“纸鸢”开放人工智能模型许可证,下一步将发布《纸鸢开放人工智能模型许可证(征求意见稿)》。站长网2023-05-30 15:47:090000iPhone15价格跌至史上最低!苹果天猫官方店iPhone降价1000
苹果官网近日启动了降价活动,iPhone15系列降价500元、MacBookAir降800元,不过网友对此表示力度不足。而值得注意的是,在官网优惠的同时,苹果天猫官方旗舰店也加入了降价行列,活动从1月20日20点开始至1月31日。站长网2024-01-17 16:05:060000雷克萨斯 LF-ZL 概念车预览未来旗舰电动车的人工智能特色
站长之家(ChinaZ.com)10月27日消息:雷克萨斯日前突显了其在LF-ZL车型中对人工智能(AI)的广泛应用。这款车通过实施AI技术,以增强车上乘员与周围环境的联系。例如,在行驶过程中,当驾驶员指向某个感兴趣的对象时,车辆将通过语音指南提供有关该地点的额外信息。这得益于车上的传感器技术,它们可以与周围的数字数据协同工作,为驾驶员提供实时反馈。站长网2023-10-28 07:49:200000中文在线等26家单位联合发布AIGC数据版权倡议书
近日,中国版权协会主办了远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》。本次活动中,中文在线、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。作为业内首份AIGC数据版权倡议书,其最大的价值在于两点:一是唤醒了国内AI企业关于大模型训练数据的版权意识;二是为AIGC研发者规避版权争议提供了方向性指引。站长网2023-06-08 06:55:120002李飞飞「数字表兄弟」破解机器人训练难题!零样本sim2real成功率高达90%
【新智元导读】在用模拟环境训练机器人时,所用的数据与真实世界存在着巨大的差异。为此,李飞飞团队提出「数字表亲」,这种虚拟资产既具备数字孪生的优势,还能补足泛化能力的不足,并大大降低了成本。如何有效地将真实数据扩展到模拟数据,进行机器人学习?最近,李飞飞团队提出一种「数字表亲」的新方法,可以同时降低真实到模拟生成的成本,同时提高学习的普遍性。0000