登陆注册

多模态大模型不够灵活

  • 多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

    最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态-动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展(将多模态表征转换为离散token并添加到模型的基本词汇表中)来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。
    站长网2024-06-03 17:07:57
    0002