新AI图像分割方法GenSAM:一个提示实现批量图片分割
划重点:
- 🔄 GenSAM模型旨在通过通用任务描述,摆脱对样本特定提示的依赖,实现对图像的有针对性分割。
- 🔍 该模型使用Cross-modal Chains of Thought Prompting(CCTP)思维链和Progressive Mask Generation(PMG)框架,实现任务通用的文本提示映射和自适应分割。
- 🚀 实验证明,GenSAM在伪装样本分割任务上相比基线方法和弱监督方法表现更好,具备良好的泛化性能。
近期,研究人员提出了一种新型图像分割方法,称为Generalizable SAM(GenSAM)模型。该模型的设计目标是通过通用任务描述,实现对图像的有针对性分割,摆脱了对样本特定提示的依赖。在具体任务中,给定一个任务描述,例如“伪装样本分割”,模型需要根据任务描述准确地分割图像中伪装的动物,而不依赖于手动提供每个图像的具体提示。

为了解决这一问题,GenSAM模型引入了Cross-modal Chains of Thought Prompting(CCTP)思维链和Progressive Mask Generation(PMG)框架。CCTP思维链通过将任务通用的文本提示映射到任务下的所有图片上,生成个性化的感兴趣物体和其背景的共识热力图,从而获得可靠的视觉提示来引导分割。为了在测试时实现自适应,PMG框架通过迭代地将生成的热力图重新加权到原图上,引导模型对可能的目标区域进行从粗到细的聚焦。
GenSAM的实验结果表明,在伪装样本分割任务上,该模型相比基线方法和弱监督方法表现更好,具备良好的泛化性能。该模型的提出为像SAM这样的提示分割方法在实际应用中迈出了重要的一步。
这一研究的创新之处在于,通过提供通用任务描述,GenSAM模型可以批量地处理所有相关任务的无标注图片,而无需为每个图片手动提供具体的提示。这使得模型在处理大量数据时更加高效和可扩展。
在未来,GenSAM模型的方法可能为其他领域的图像分割任务提供新的思路和解决方案。研究人员希望这种通用任务描述引导的图像分割方法能够推动计算机视觉领域的发展,提高模型在复杂场景下的分割准确性。
论文链接:https://arxiv.org/pdf/2312.07374.pdf
项目链接:https://top.aibase.com/tool/gensam
月之暗面 Moonshot AI 开放平台启动公开测试
月之暗面MoonshotAI开放平台正式启动了公开测试,这一重要进展标志着所有开发者都能够开始利用这一平台。站长网2024-02-06 09:06:170001魅族21系列5款机型曝光 最低1599元起
魅族公司于10月4日最新曝光了5款新机型号,包括魅族21和魅族21Pro两款。其中3款为国行系列,2款尚未确认其是否为海外版本或其他型号。据此前消息,“数码闲聊站”透露,魅族21系列将采用高通最新移动平台骁龙8Gen3,并延续前代的极简设计。预计该系列将搭配直屏设计,而Pro版本有望首次采用潜望式长焦摄像头。站长网2023-10-04 15:39:450000两周用户增长近百万,挺进美国社交应用榜Top5,这款反AI产品火了
在AI产品竞争白热化之际,一款反AI应用却逆势走红。今年6月,一个名为Cara的图片社区仅用了两周时间,就将用户基数从四万增长至近百万,一跃成为美国社交应用榜Top5,超过了X(前为“推特”)、Reddit、Discord、Linkedln和Messenger,出尽风头。站长网2024-07-04 17:13:150000谷歌与Reddit达成6千万美元交易,共同推动AI培训计划
**划重点:**1.💼Reddit与谷歌合作,签署了一份价值6千万美元的协议,允许谷歌利用Reddit用户生成的内容培训其人工智能模型。2.📈这项交易被认为是Reddit为上市做准备的一部分,可能为其带来财务助益。3.🌐此次合作引发了对人工智能公司如何使用和从用户生成内容中获利的担忧,同时涉及到了类似的数据许可交易趋势。站长网2024-02-23 18:11:430000英伟达正式宣布 AI Foundry 服务:与微软 Azure 合作推出 H100 实例,明年推出 H200 实例
英伟达正式宣布推出其AIFoundry服务计划,这是一套包括英伟达AI基础模型、英伟达NeMo框架和工具,以及DGX云AI超级计算和服务的全方位解决方案,为企业打造和优化定制的生成式AI模型。站长网2023-11-16 10:24:410000