登陆注册

浙大等提出视觉任务统一架构VisionLLAMA

  • 美团、浙大等提出视觉任务统一架构VisionLLAMA

    要点:1.VisionLLaMA是一种统一的视觉transformer架构,显著提升了图像生成、分类、语义分割和目标检测等多个主流视觉任务的性能。2.VisionLLaMA架构采用常规transformer和金字塔结构两种设计,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。
    站长网2024-03-07 16:16:09
    0000