登陆注册

支持文本图像视频输入

  • 多模态大模型MMICL霸榜 支持文本图像视频输入

    要点:1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。
    站长网2023-09-19 16:41:08
    0001