登陆注册

全新视觉提示方法SoM

  • 全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

    要点:提出了一种新的视觉提示方法SoM,可以让GPT-4V在细粒度视觉任务上有更好的表现。SoM通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。SoM可以让GPT-4V适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。
    站长网2023-10-24 21:20:40
    0000