登陆注册

4V看的更准

  • 在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。自GPT-4发布以来,大型多模态模型(LMM)引起了研究界越来越多的兴趣,许多工作致力于构建多模态GPT-4。
    站长网2023-10-24 21:20:45
    0000
  • 全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

    要点:提出了一种新的视觉提示方法SoM,可以让GPT-4V在细粒度视觉任务上有更好的表现。SoM通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。SoM可以让GPT-4V适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。
    站长网2023-10-24 21:20:40
    0000