字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
视觉语言时代新基准
在视觉语言时代下,如何设计一个更好可扩展的视觉模型?
在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。
此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。
最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:
第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。
基于这些发现,研究人员设计了ViTamin模型。
它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。
然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。
接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。
作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。
多项SOTA
在零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。
此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。
作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。
作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。
ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。
ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。
在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。
来自智能创作团队
智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。
他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。
论文链接:
https://arxiv.org/pdf/2404.02132.pdf
项目主页:
https://beckschen.github.io/vitamin
拍下周鸿祎迈巴赫的男子系二手车商 称将邀请粉丝试驾
4月28日,北京一场特殊的拍卖会引起了广泛关注。360集团创始人周鸿祎在社交平台宣布,将拍卖自己开了9年的座驾——一辆迈巴赫S600,起拍价仅为600元。最终,这辆二手车以惊人的990万元成交,被北京一家二手车商买走。值得一提的是,买家在竞拍成功后表示,自己的视频账号虽拥有30万粉丝,但从未蹭过流量。而在拍卖后的短短一天内,该男子的粉丝数已激增至66.1万。站长网2024-04-29 17:19:130000百度发布AI原生应用“橙篇”APP 支持超长内容理解生成
站长之家(ChinaZ.com)5月30日消息:5月30日,百度在2024移动生态万象大会上正式推出了AI原生应用——“橙篇”。“橙篇”不仅让用户能够轻松应对超大、多格式、长内容的文件挑战,进行深度理解、精准总结和即时问答,更以其超长篇幅的长文生成、深度编辑和多模态自由创作能力,极大地丰富了用户的内容创作手段。站长网2024-05-30 21:23:420000汉王科技申请“汉王天地大模型”商标
天眼查显示,汉王科技近日申请“汉王天地大模型”“天地大模型”商标,国际分类涉及科学仪器、通讯服务,当前商标状态均为申请中。此前,汉王科技表示,正在研发一种适度规模参数和适度算力的专业模型,专门用于训练特定领域的知识数据。该模型不需要使用千亿级参数和大量算力,而是致力于实现“单位可部署、数据私有化、能力专业化、越用越智慧、投资可接受”等目标。站长网2023-07-04 00:16:100002美国军方正在尝试生成式 AI:正在对其中的五个模型进行测试
大语言模型(LLM)是通过对互联网数据进行大规模训练,以帮助人工智能预测和生成类似人类回应的工具。它们是开放AI的ChatGPT和谷歌的Bard等生成式AI工具的动力来源。作为美国国防部更广泛的一系列实验的一部分,正在对其中的五个模型进行测试,重点是开发军队间的数据整合和数字平台。这些演习由五角大楼的数字化与人工智能办公室和高级军官组织,并得到美国盟友的参与。站长网2023-07-08 02:52:430002美国、英国和其他十几个国家签署协议,确保人工智能 「设计安全」
美国、英国及其他十几个个国家于周日联合发布了一份20页的文件,标志着首个详细的国际协议在如何保护人工智能(AI)免受恶意行为者滥用方面达成一致。美国一高级官员描述此协议为确保公司创建的AI系统从设计开始就是安全的重要步骤。站长网2023-11-27 09:20:290001