登陆注册

通过文本和视觉提示提供灵活的对象引用

  • 高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

    划重点:🔍最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。🚀团队引入了Griffonv2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。🌟Griffonv2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。
    站长网2024-03-19 11:58:27
    0000