全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
要点:
提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。
SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。
SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。
然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。
论文地址:https://arxiv.org/pdf/2310.11441.pdf
论文主页:https://som-gpt4v.github.io/
SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。
研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。
研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。
研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。
在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。
研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。
免费在线AI绘画工具Playground AI 无需注册!每天可画1000张
PlaygroundAI是一个免费在线的AI图像生成器,可以帮助用户轻松地创建艺术作品、社交媒体帖子、演示文稿、海报、视频、标志等。体验地址:https://playgroundai.com/核心功能:多样化的主题和风格:提供抽象艺术、动物、卡通、花卉、食物、风景、人物、文字等多种主题和风格,满足用户不同的喜好和需求。灵活的输入方式:支持通过文字或图片输入指导AI站长网2023-08-01 10:24:180001苹果7月关闭我的照片流服务:用户需尽快迁移iCloud
快科技5月27日消息,苹果公司宣布将于7月26日关闭我的照片流”(MyPhotoStream)服务,并推荐现有用户尽快迁移到iCloudPhotos”服务上。苹果还表示,6月26日开始,不再接受用户上传照片到我的照片流”;在保留30天之后,于7月26日正式关闭。0000身家超1060亿美元!英伟达CEO黄仁勋超戴尔成全球第13大富豪
快科技6月8日消息,据媒体报道,彭博亿万富翁指数显示,英伟达创始人、CEO黄仁勋身家周五超过个人电脑先驱迈克尔戴尔,成为全球第13大富豪,净资产达1061亿美元。随着人工智能芯片需求推动英伟达股价飙升,黄仁勋财富今年激增超过620亿美元,戴尔目前净资产为1059亿美元。此前业界预计,黄仁勋最快有望在2025年前超越特斯拉CEO马斯克,成为全球首富。0000塔罗占卜GPT来了! Copilot Gallery上线几天访问已达上万次
最近,塔罗占卜GPTCopilotGallery在网上火了,短短几天内在其平台上产生了上万次交互,仅次于乔布斯机器人。它可以为有关工作、爱情和运势的问题提供合理的答案。塔罗牌GPT使用GPT技术和新兴标准将自己标记为合成创作,为越来越关注合成媒体传播的领域提供透明度。地址:https://app.copilothub.ai/copilots站长网2023-05-10 16:06:270001最新GPT-4.5疑似泄露!更强多模态,支持3D,价格飙6倍
大家对于OpenAI产品的关注讨论热度,似乎从没下来过。最近,网上更是传得沸沸扬扬:最新版本的GPT-4.5好像神不知鬼不觉偷偷上线了!根据Reddit网站OpenAI版块的爆料帖子,GPT-4.5被描述为“OpenAI最先进的一款模型”,具备更强大的多模态能力。除了GPT-4V能处理的文本、语音、图片和视频,连3D信息也能轻松拿下,还可以做到跨模态理解。0000