登陆注册

华科

  • 2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

    最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。
    站长网2024-08-13 09:44:23
    0000