全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
要点:
提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。
SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。
SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。
然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。

论文地址:https://arxiv.org/pdf/2310.11441.pdf
论文主页:https://som-gpt4v.github.io/
SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。
研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。

研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。
研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。
在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。
研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。
大模型人才高度稀缺,“选择”比“培养”更重要|对话昆仑万维
近期,“百模大战”愈演愈烈。在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的焦点。然而,目前AIGC领域的尖端人才,仍存在较大缺口。到底招募什么类型人才,有利于模型研发?去哪里招募大模型人才?如何培养大模型研发人才?图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-10-01 21:53:300000AI前哨 | 对话百度肖阳:谁是中国第一搜索引擎?
凤凰网科技讯《AI前哨》5月29日消息,前几天,“百度已不是中国第一大桌面搜索引擎”话题被顶上微博热搜。根据美国研究机构Statcounter的最新统计数据,今年4月微软必应搜索国内搜索市场份额创历史新高,而百度搜索市场份额降至27.01%,排名跌到第二。0000字节跳动 “AI作业助手” Gauth在美国教育应用下载量排名第二
划重点:⭐️Gauth成为美国教育应用市场第二下载量最高的应用,仅次于语言学习平台Duolingo。⭐️中国教育科技企业在政策风险下成功开拓海外市场,Gauth和Question.AI受欢迎。⭐️Gauth利用人工智能技术提供各科目解题、在线专家支持等服务,获得用户青睐。站长网2024-04-18 21:55:520000OpenAI 撤销 ChatGPT Plus 与 Bing 的集成 防止用户绕过付费墙
站长之家(ChinaZ.com)7月5日消息:OpenAI撤销了ChatGPT与Bing的集成,因用户滥用该功能绕过付费墙获取文章。今年早些时候,微软宣布将扩展与OpenAI的合作,将Bing搜索引擎引入ChatGPT,并在此过程中解决了该聊天机器人最大的弱点——没有联网获取最新信息的能力。站长网2023-07-05 09:43:030002Reddit IPO文件曝光,OpenAI的Sam Altman被列为重要股东
**划重点:**1.🤝OpenAI首席执行官SamAltman持有Reddit8.7%的股份,成为最大股东之一。2.💼Altman与Reddit有深厚渊源,曾在YCombinator加速器同窗,并曾担任Reddit临时首席执行官。3.📈Reddit计划通过与人工智能公司的数据许可协议扩大业务,并与谷歌达成人工智能培训协议。站长网2024-02-23 14:26:370000