登陆注册

字节发布视觉基础模型ViTamin

  • 字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

    视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
    站长网2024-04-27 18:52:08
    0001