新AI图像分割方法GenSAM:一个提示实现批量图片分割
划重点:
- 🔄 GenSAM模型旨在通过通用任务描述,摆脱对样本特定提示的依赖,实现对图像的有针对性分割。
- 🔍 该模型使用Cross-modal Chains of Thought Prompting(CCTP)思维链和Progressive Mask Generation(PMG)框架,实现任务通用的文本提示映射和自适应分割。
- 🚀 实验证明,GenSAM在伪装样本分割任务上相比基线方法和弱监督方法表现更好,具备良好的泛化性能。
近期,研究人员提出了一种新型图像分割方法,称为Generalizable SAM(GenSAM)模型。该模型的设计目标是通过通用任务描述,实现对图像的有针对性分割,摆脱了对样本特定提示的依赖。在具体任务中,给定一个任务描述,例如“伪装样本分割”,模型需要根据任务描述准确地分割图像中伪装的动物,而不依赖于手动提供每个图像的具体提示。
为了解决这一问题,GenSAM模型引入了Cross-modal Chains of Thought Prompting(CCTP)思维链和Progressive Mask Generation(PMG)框架。CCTP思维链通过将任务通用的文本提示映射到任务下的所有图片上,生成个性化的感兴趣物体和其背景的共识热力图,从而获得可靠的视觉提示来引导分割。为了在测试时实现自适应,PMG框架通过迭代地将生成的热力图重新加权到原图上,引导模型对可能的目标区域进行从粗到细的聚焦。
GenSAM的实验结果表明,在伪装样本分割任务上,该模型相比基线方法和弱监督方法表现更好,具备良好的泛化性能。该模型的提出为像SAM这样的提示分割方法在实际应用中迈出了重要的一步。
这一研究的创新之处在于,通过提供通用任务描述,GenSAM模型可以批量地处理所有相关任务的无标注图片,而无需为每个图片手动提供具体的提示。这使得模型在处理大量数据时更加高效和可扩展。
在未来,GenSAM模型的方法可能为其他领域的图像分割任务提供新的思路和解决方案。研究人员希望这种通用任务描述引导的图像分割方法能够推动计算机视觉领域的发展,提高模型在复杂场景下的分割准确性。
论文链接:https://arxiv.org/pdf/2312.07374.pdf
项目链接:https://top.aibase.com/tool/gensam
Meta悄然发布Llama 2 Long AI,在某些任务上击败GPT-3.5 Turbo和Claude 2
本文概要:Meta悄然发布Llama2LongAI模型,该模型在某些任务上击败了GPT-3.5Turbo和Claude2。Llama2Long是基于Meta的开源Llama2模型,经过改进后能够更好地处理长文本和复杂任务。Llama2Long的改进主要包括:增加了长文本数据集、修改了位置编码、使用了强化学习。站长网2023-10-03 10:56:140001给用户免单的淘宝,好起来了吗?
取消预售、升级网页版、推出免单活动,最近一段时间的淘宝堪称热搜“专业户”。在618大促正式开始前,淘宝正急着向用户交出改革成绩单。从去年开始,马云、蔡崇信、吴泳铭都或多或少地点明了淘天集团的问题在于忽视了用户体验。闷头狂奔的那些年里,淘天的版图虽然得以无限扩大,但自身的臃肿程度却也与日俱增,直到“正视现状,重新创业”的新要求出现,淘天内部的“大换血”才被提上日程。站长网2024-05-11 08:34:450000海外版拼多多“Temu”,会成为下一个TikTok吗?
找人“砍一刀”在美国火了!有没有搞错?美国人民都疯了吗?大家千万别误会,此一刀非彼一刀,今天要讲的这个“砍一刀”是大家十分熟悉的一款“中国制造”APP—拼多多!在很多人心目中,美国GDP长期占据世界榜首,加上只有3亿多人口,大家生活一定过得很滋润吧?而拼多多,那不是我等发展中国家平民百姓用的?怎么还能上得了美利坚人民的“大雅之堂”?站长网2023-04-14 17:01:230005GPT Store可能是一个“硅基人才市场”
也许我们都错了,GPTStore可能是一个“硅基人才市场”,而不是APPStore。如果要说在AI领域中最火的一个应用,那么在当下,毫无疑问会是ChatGPT。站长网2024-01-31 09:18:180000月入500万,“土味”网红明着赚钱
“giao哥已经消失在那片小树林里了,现在他是展亚鹏先生。”熟悉土味文化的人,可能对“展亚鹏”这个名字陌生,但大概率还记得giao哥,或是他那句标志性的“一给我哩giaogiao”。站长网2023-10-24 21:27:270000