字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
字节提出新基础模型——ViTamin,专为视觉语言时代设计。
在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
视觉语言时代新基准
在视觉语言时代下,如何设计一个更好可扩展的视觉模型?
在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。
此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。
最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:
第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。
基于这些发现,研究人员设计了ViTamin模型。
它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。
具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。
然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。
接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。
作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。
多项SOTA
在零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。
当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。
此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。
作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。
作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。
ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。
ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。
在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。
这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。
来自智能创作团队
智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。
他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。
论文链接:
https://arxiv.org/pdf/2404.02132.pdf
项目主页:
https://beckschen.github.io/vitamin
日本国内正掀起生成式AI发展浪潮
据外媒报道,日本国内开发自动创建内容的生成人工智能的举措正在如火如荼地进行,不少公司正在努力赶上在推出生成性人工智能服务方面领先于外国竞争对手。此外,一些日本公司已经宣布计划开发或免费发布大规模语言模型,这是生成人工智能的基础技术。站长网2023-06-13 17:58:260000美国证券交易委员会担心生成式AI会加剧金融市场风险
美国证券交易委员会(SEC)对生成式人工智能对金融市场的影响表示担忧。美国SEC主席GaryGensler在一次演讲中表示,生成式人工智能可能会增加金融市场的风险,因为它可能会导致金融机构使用不准确或不相关的信息做出错误决策。站长网2023-07-18 12:38:530000wps崩了上热搜 客服回应:正在逐步恢复相关服务
站长之家(ChinaZ.com)1月5日消息:今日午间,“wps崩了”登上微博热搜。有部分用户反馈称,WPS在线文档和稻壳儿等服务无法正常使用。客服人员对此表示歉意,并表示正在逐步恢复相关服务。据悉,此前金山办公在2023年12月20日起推出了个人版关闭第三方商业广告的功能。公司声称将秉持“简单创作、轻松表达、实现价值的连接”的公司使命,为广大用户提供优质的产品服务体验。0000那个创下小程序100亿销售记录的团队再创业了
在将旅购的私域收入做到一年超过100亿人民币时,创始团队想着离开再创业。腾讯公开数据中,私域一年超过100亿营收的公司截止2022年才不过5家。作为2018年小程序时代的创业团队,能在2022年实现百亿销售额,成为5家之一,是一个巨大、了不起的成就。站长网2023-05-15 11:23:330000预计苹果要到 2024 年下半年才会推出重大人工智能相关服务
苹果公司上周五成为全球首家市值超过3万亿美元的公司,这一里程碑反映出iPhone的持久影响力和韧性,这款非凡产品仍在改变着全世界的生活和商业。站长网2023-07-04 00:16:100001