中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性
要点:
1、DualToken-ViT将卷积和自注意力联合使用,分别提取局部和全局信息,再将两者输出融合形成有效的注意力结构。
2、使用位置感知全局令牌提升全局信息质量,令牌中还包含图像位置信息,有利于视觉任务。
3、在相同FLOPs下,DualToken-ViT在图像分类、目标检测和语义分割任务上表现最好。
最近,视觉Transformer(ViT)成为各类视觉任务如物体识别和图片分类的有效架构。这是因为自注意力可以从图片中提取全局信息,而卷积核大小限制了卷积神经网络(CNN)只能提取局部信息。随着ViT模型和数据集规模的增大,相比CNN具有更好的扩展性。但在轻量级模型上,由于缺乏某些归纳偏置,CNN优于ViT。
自注意力的二次复杂度导致ViT计算成本潜在很高,构建轻量高效的ViT并不容易。为此,提出金字塔结构,将模型分为多个阶段,每阶段令牌数减少,通道数增加,以构建更轻量高效的ViT。简化自注意力结构以减轻其复杂度,但以牺牲注意力有效性为代价。一个典型策略是下采样自注意力的key和value,减少参与注意力过程的令牌数。
论文地址:https://arxiv.org/abs/2309.12424
本研究中,华东师范大学和阿里巴巴集团的研究人员提出了紧凑高效的视觉Transformer模型DualToken-ViT。他们的方法使用卷积和自注意力联合提取局部和全局信息,再将两者输出融合形成有效的注意力结构。尽管窗口自注意力也可以提取局部信息,但他们发现,在轻量模型上卷积更有效。他们采用逐步下采样的方式生成key和value特征图,在下采样过程中保留更多信息,降低自注意力在传播全局信息时的计算成本。
此外,他们在每个级别使用位置感知全局令牌来提高全局数据质量。与标准全局令牌不同,他们的位置感知全局令牌还可以维护和传递图像位置信息,在视觉任务中为模型提供优势。如图1所示,图像中的关键令牌与位置感知全局令牌中的对应令牌产生了更大的相关性。
总之,他们的贡献有:1)提出了紧凑高效的视觉Transformer模型DualToken-ViT,通过卷积和自注意力的优势实现有效的注意力结构;2)提出位置感知全局令牌,通过图像位置信息来增强全局信息;3)DualToken-ViT在相同FLOPs下在多个视觉任务上表现最好。
最会玩的年轻人,都在洗浴中心去班味
“在这里躺一天都不够”,年轻人去洗浴中心泡汤成了暑期新潮流。有忙碌了一周的打工人组团去班味,在独立的空间里享受断联的快乐;有年轻游客到洗浴中心过夜,既能感受当地洗浴文化又能剩下一笔住酒店的费用;有人喜欢洗浴中心的豪华装修,为出片而去;最近两天游戏《黑神话·悟空》爆火,有玩家相约在洗浴中心畅玩,电竞区一位难求;还有外国小伙被洗浴中心里提供的中国美食吸引,把泡澡安排进特种兵旅行里。0000Fullpath推出首款支持Chat-GPT4的产品 专为汽车经销商设计
Fullpath推出了首款支持Chat-GPT4的产品,专为汽车经销商设计,旨在改善在线购车体验和客户关系管理。AI工具经过训练,可以将互联网的大量知识与专有的Fullpath数据层相结合,以识别经销商数据库中的特定购物者并回答经销商的特定问题。将Chat-GPT4集成到Fullpath的CDXP平台将提高在线购车体验的效率和个性化,使客户和经销商等更加方便。站长网2023-04-20 12:05:470000百度将发布全球首个AI原生地图 百度地图V19版本10月17日推出
百度将在10月17日发布百度地图V19版本,该版本将从“新交互”和“新导航”两个主要方面进行全面升级。其中,最引人注目的是,百度地图V19将基于文心大模型进行重构,并推出全新的“AI向导”。这个“AI向导”拥有多轮自然语言交互能力,使得用户与地图之间的交互体验更加接近真人交流。站长网2023-10-12 17:21:310000登顶美国手游榜,猪猪之后,猫咪又成另一吸量密码?
上线5年,靠HelloKitty新店开张翻红冲上美榜Top3提到猫咪,许多人想到的都是它们毛绒可爱、憨态可掬的样子。人类被猫咪吸引的历史也非常悠久,能追溯到公元前几千年的古埃及。而放到现代,对猫吸引力的最直接体现就是与之相关的宠物市场规模,市场分析公司IMRAC的统计数据显示,2023年仅美国的猫粮市场总规模就达到359亿美元,到2032年将增长到479亿美元。爱猫热潮大有愈演愈烈之势。0000YaRN:可高效扩展现有大模型的上下文窗口长度
要点:1、YaRN是一种计算高效的方法,可以扩展基于transformer的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的token和2.5倍更少的训练步骤。2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。站长网2023-09-08 14:36:160001