微软研究推新型视觉基础模型Florence-2:基于统一提示,适用各种计算机视觉和视觉语言任务
**划重点:**
1. 🌐 人工智能系统向使用预训练、可调整表示的方向发展,Florence-2是一款灵活的视觉基础模型,通过统一提示式表示,成功解决了空间层次和语义细粒度的挑战。
2. 📊 通过多任务学习和大规模数据集,Florence-2实现了灵活的通用表示,取得了在多个视觉任务上的零样本表现和超越专业模型的成果。
3. 🛠️ 采用序列到序列结构,Florence-2不需要特定任务的架构调整,支持目标识别、字幕生成等多种视觉任务,是一种具有统一基础的灵活模型。
近来,人工智能领域的趋势是采用预训练、可调整表示的方法,为各种应用提供任务不可知的优势。与此趋势相呼应,微软研究推出了Florence-2,这是一款灵活的视觉基础模型,通过统一提示式表示成功应对了计算机视觉中的挑战。
在自然语言处理(NLP)中,我们看到了这种趋势的明显体现,先进的模型展示了在多个领域和任务上灵活性的同时,能够通过简单的指令进行深入的知识覆盖。NLP的流行鼓励在计算机视觉中采用类似的策略,但计算机视觉面临更多挑战,因为它需要处理复杂的视觉数据,如特征、遮挡轮廓和物体位置。为了实现通用表示,模型必须熟练处理二维排列的各种具有挑战性的任务。
Florence-2通过统一的预训练和网络设计,引领了在计算机视觉中整合空间、时间和多模态特征的潮流。该模型通过任务特定的微调和使用嘈杂的文本-图像对进行预训练,在转移学习方面取得了显著的进展。然而,由于对大型任务特定数据集和适配器的依赖,存在解决空间层次和语义细粒度两个主要问题的差距。研究人员通过使用富有视觉标注的多任务学习,提供了一个通用的骨干,实现了基于提示的统一表示,成功解决了数据不完整和缺乏统一架构的问题。
在实现多任务学习时,大规模、高质量的标注数据是必不可少的。为了克服人工标注的瓶颈,研究团队创建了一个名为\fld 的广泛的视觉数据集,其中包含对126M张照片的5.4B注释。通过使用专门的模型共同和自主地注释照片,该数据引擎的第一个模块跳出了传统的单一手动注释策略。与众多模型合作,共同创建共识,形成更公正和可信的图片解释。第二个模块使用学习到的基本模型,反复改进和过滤这些自动注释。
Florence-2采用序列到序列(seq2seq)结构,通过整合图像编码器和多模态编码器-解码器,利用这个大型数据集。这种架构支持多种视觉任务,无需任务特定的架构调整,符合NLP社区创建具有统一基础的灵活模型的目标。数据集中的每个注释都被一致地标准化为文本输出,从而实现了使用相同损失函数的单一多任务学习策略的一致优化。结果是一个灵活的视觉基础模型,可以处理一系列功能,包括目标识别、字幕生成和定位,都在单一模型的统一参数控制下。文本提示被用来激活任务,与大型语言模型(LLMs)采用的方法一致。
该方法实现了通用表示,并在许多视觉任务中具有广泛的应用。关键发现包括:
- 该模型是一种灵活的视觉基础模型,在诸如RefCOCO的任务中实现了新的零样本性能,包括引用表达理解、Flick30k上的视觉定位和COCO上的字幕生成。
- 尽管体积较小,但在使用公开可用的人工标注数据进行微调后,与更专业的模型竞争。值得注意的是,改进后的模型在RefCOCO上创下了新的基准最先进得分。
- 预训练的骨干在下游任务中超越了监督和自监督模型,在COCO对象检测和实例分割以及ADE20K语义分割上取得了显著的增长。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K数据集上分别取得了6.9、5.5和5.9个点的显著增加,同时将在ImageNet上预训练模型的训练效率提高了四倍。
这项研究的全部功劳归功于该项目的研究人员。如果您喜欢他们的工作,请查看论文,并加入他们的社交媒体群体,获取最新的人工智能研究新闻和有趣的项目。
论文网址:https://arxiv.org/abs/2311.06242
东方甄选宣布向新东方出售教育业务 成纯直播电商公司
站长之家(ChinaZ.com)11月22日消息:近日,东方甄选发布公告,宣布董事会已批准向母公司新东方出售其教育业务。这一出售事项是广义新东方集团业务重组的一部分,旨在更清晰地划分业务线,并更好地使其业务部门与运营环境保持一致。根据公告,教育业务的出售代价总计人民币15亿元,将以现金支付。截至2023年9月30日,教育业务的账面值(净负债)约为人民币1.531亿元。站长网2023-11-22 10:04:080000新西兰超市 AI 机器人生成有毒食谱引发关注
概要:-新西兰超市Pak'nSave的AI食谱机器人推荐了一些有毒食谱,比如氯气鸡尾酒和漂白大米。-用户测试发现该机器人没有意识到有毒食谱的危险性,甚至给出了制作这些食谱的详细说明。-尽管这些食谱仅仅是娱乐性质,但这引发了人们对该技术的担忧。站长网2023-08-11 15:39:530000北大等发布智能体Jarvis-1 轻松玩转“我的世界”
要点:北大、北邮、UCLA和BIGAI联合发布的智能体Jarvis-1在开放世界游戏「我的世界」中取得重大突破,采用多模态记忆增强多任务处理,表现出卓越的规划和控制能力。Jarvis-1通过多模态感知、记忆增强和终身学习,在「我的世界」游戏中展现出近乎完美的性能,成功完成包括合成钻石镐等复杂任务,超越了现有方法的性能水平。站长网2023-12-08 15:11:280001库克谈为何每年推出新iPhone:每年换机是很酷的事
近日,苹果公司首席执行官蒂姆库克在接受海外杂志采访时谈到了公司未来的规划。当被问到为什么苹果每年都要发布一款新的iPhone,而新iPhone几乎没有太大升级,这与苹果一直倡导的环保观念不符时,库克表示:“我认为对于那些想要(新手机)的人来说,每年都能买到一款iPhone是一件很酷的事情。”站长网2023-10-10 09:35:210000ChatGPT最近变笨了?
美国的一份论文发现,GPT-3.5和GPT-4的性能和行为在这两个版本中存在显著差异,且随着时间推移,它们在某些任务上的性能变得越来越差。本文为斯坦福大学与加州大学伯克利分校学者共同创作的论文站长网2023-07-23 14:23:050000