全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
要点:
提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。
SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。
SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。
然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。
论文地址:https://arxiv.org/pdf/2310.11441.pdf
论文主页:https://som-gpt4v.github.io/
SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。
研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。
研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。
研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。
在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。
研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。
小米14系列最快11月发布:出厂预装MIUI15
高通的最新旗舰处理器骁龙8G3预计将于10月份的骁龙峰会上亮相,并且有望在11月份推出搭载此处理器的安卓旗舰手机。据悉,小米14系列有望成为首批搭载骁龙8G3处理器的手机。站长网2023-08-19 15:58:000000今日AI:字节出手解救Stable Diffusion用户;抖音AI盯上你的”搭子“;猫被AI换脸找谁说理
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用字节发布ResAdapter可以解决StableDiffusion肢体异常、画面崩坏问题【AiBase提要:】站长网2024-03-06 17:24:300000我在闲鱼出租Vision Pro,月入过万
苹果VisionPro尚未在国内发售,但已经有人靠出租赚到钱了。面对售价近3万元且一货难求的VisionPro,家住河南郑州的90后果粉余琦,第一时间跑到闲鱼上,想看看同城有没有门店开放线下体验,“一线城市有,不过我所在的城市目前还没有能提供相关服务的门店。”0000会玩!一国外AI公司称要在海上训练强大的AI以规避美国法规
划重点:1.自称是AI公司DelComplex表示将在国际水域上建立具有安全保障力量的“蓝海前沿计算集群”(BSFCC),以规避政府的AI培训报告要求。2.DelComplex可能并非真正的AI公司,其宣称的驳船也是虚构的。3.该公司声称其行为是为了提供“国家即服务”,并批评政府对AI技术的监管滞后于时代发展。站长网2023-11-02 11:57:2800002023,没有一个打工人逃得过AI
如果评选2023年最令人着迷的新技术,那非ChatGPT莫属。从美国的硅谷、华尔街到中国的后厂村、中关村,几乎所有的科技大厂们都在讨论“生成式AI”。ChatGPT之后,几乎每周都有新的生成式AI产品产出,陆续涌现了文心一言、通义千问、Gemini等大模型,细分赛道则见证了Midjourney、妙鸭相机、HeyGen、Pika等一夜爆火......0000