最强“全开源”多模态分割一切大模型APE
要点:
1、APE 是一种全开源的多模态分割模型,通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式以及统一前景和背景粒度来提高分割效果。
2、APE 的方法主要包括独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度。在多个常见数据集上进行实验,APE 方法取得了强力的分割效果。
3、APE 方法在各个检测、分割和指向性检测数据集上都比之前的方法表现好,在 D3数据集上取得了显著的提升。在开集检测、开集分割和视觉定位等任务上,APE 方法也展现出竞争力,取得了新的 SOTA 结果。
APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少计算复杂度和内存消耗,从而有效地表达语义信息。
论文地址:https://arxiv.org/pdf/2312.02153.pdf
开源链接:https://github.com/shenyunhang/APE
Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo
APE 采用了不同的特征融合方式来处理不同类型的 Prompt。对于纯类别名的文本特征,采用一种 “zero” 文本 token 作为替代,以避免过拟合问题。而对于语言描述的文本特征,采用特定的融合方式将其与视觉特征进行语义级的理解。此外,APE 还通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度,从而实现一次性检测和分割。
APE 还通过统一前景和背景粒度来提高分割效果。在分割任务中,前景和背景的粒度是不同的,但传统方法往往面临前背景冲突的问题。为此,APE 提出统一前景和背景的粒度,将背景的不同块视为独立的标签,从而使模型可以采用统一的架构训练前景和背景数据,并方便地融入大规模的 Class-Agnostic 数据。
APE 在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在 D3数据集上,APE 的表现显著优于其他方法。在开集检测任务中,APE 在常见数据集上的效果也明显优于其他方法。此外,APE 还在开集分割任务和视觉定位任务上取得了竞争性的结果,在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。
APE 是一种非常有潜力的多模态分割模型,具有广泛的应用前景。通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度,APE 在多个常见数据集上取得了强力的分割效果,并展现出竞争力的结果。未来的研究可以进一步探索 APE 在其他视觉任务中的应用,以及对其方法进行优化和改进。
独立开发变现周刊(第125期):个人Notion如何每月收入3万美元
目录1、Clipwing:一个一个超级简单的视频编辑器2、Flarum:一款开源简洁的论坛平台3、TinyLetter:一个简易的电子邮件订阅服务平台4、个人Notion业务如何月赚3万美元1、Clipwing:一个一个超级简单的视频编辑器我已经建立Clipwing(一个超级简单的视频编辑器)6个月了。尽管有用户,但还没有付费用户。站长网2024-03-08 13:36:440000报道称iPhone设计师加入LoveFrom,将与Sam Altman合作开发新AI硬件
划重点:🍏苹果iPhone设计总监唐坦加入JonyIve的LoveFrom,与OpenAI首席执行官SamAltman共同开发人工智能硬件。💡项目被称为“AI版iPhone”,由SoftBank资助,涉及JonyIve和唐坦负责外观设计,SamAltman负责软件开发。🏠目前正在LoveFrom讨论的概念包括家庭设备,可能类似于HomePod,但具体细节未透露。0000AI native时代,李彦宏口中“卷对方向”指的是什么?
让大模型“用”起来,创造商业的价值。在过去,大多数人了解AI的途径是文艺作品。从《银翼杀手》到《爱、死亡与机器人》,人工智能改变生活的方式众多,有人期待亦有人担忧,理工科出身,同时也是百度创始人、董事长兼CEO的李彦宏,显然是前者。最近十年,李彦宏不止一次公开表示,“互联网的下一幕是人工智能”“互联网只是前菜,人工智能才是主菜”,众人不置可否之时,百度已经潜入了AI研发的深海。0000吓坏“果粉” 苹果罕见道歉:新iPad Pro宣传视频已被撤回
站长之家(ChinaZ.com)5月10日消息:近日,苹果公司营销副总裁托尔・迈伦(TorMyhren)就公司发布的《Crush》宣传视频发表了一份致歉声明。他表示,该视频未能“实现预期的宣传效果”,并决定将其撤回。站长网2024-05-10 11:29:380001做百万用户的一点心得
各位村民好,我是村长。这一年,我做了两个日活过十万的工具.相比于在C端上做了几个项目,亏了几千万来说,我个人认为做ToB的工具市场会更稳妥一点。今天和大家聊聊,这一年做工具的一些心得。1、无论哪个领域,不管某个工具产品做的如何大,都还会有中小产品吃饭喝汤的机会。2、别小看喝汤,有时候喝汤的利润,比一些市场巨无霸的利润还高。站长网2023-07-10 17:07:040000