最强“全开源”多模态分割一切大模型APE
要点:
1、APE 是一种全开源的多模态分割模型,通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式以及统一前景和背景粒度来提高分割效果。
2、APE 的方法主要包括独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度。在多个常见数据集上进行实验,APE 方法取得了强力的分割效果。
3、APE 方法在各个检测、分割和指向性检测数据集上都比之前的方法表现好,在 D3数据集上取得了显著的提升。在开集检测、开集分割和视觉定位等任务上,APE 方法也展现出竞争力,取得了新的 SOTA 结果。
APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少计算复杂度和内存消耗,从而有效地表达语义信息。
论文地址:https://arxiv.org/pdf/2312.02153.pdf
开源链接:https://github.com/shenyunhang/APE
Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo
APE 采用了不同的特征融合方式来处理不同类型的 Prompt。对于纯类别名的文本特征,采用一种 “zero” 文本 token 作为替代,以避免过拟合问题。而对于语言描述的文本特征,采用特定的融合方式将其与视觉特征进行语义级的理解。此外,APE 还通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度,从而实现一次性检测和分割。
APE 还通过统一前景和背景粒度来提高分割效果。在分割任务中,前景和背景的粒度是不同的,但传统方法往往面临前背景冲突的问题。为此,APE 提出统一前景和背景的粒度,将背景的不同块视为独立的标签,从而使模型可以采用统一的架构训练前景和背景数据,并方便地融入大规模的 Class-Agnostic 数据。
APE 在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在 D3数据集上,APE 的表现显著优于其他方法。在开集检测任务中,APE 在常见数据集上的效果也明显优于其他方法。此外,APE 还在开集分割任务和视觉定位任务上取得了竞争性的结果,在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。
APE 是一种非常有潜力的多模态分割模型,具有广泛的应用前景。通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度,APE 在多个常见数据集上取得了强力的分割效果,并展现出竞争力的结果。未来的研究可以进一步探索 APE 在其他视觉任务中的应用,以及对其方法进行优化和改进。
宜家AI家居设计和购物助手在 OpenAI GPT 商店上架
划重点:🛋️个性化设计:IKEAAI助手是在GPTStore上推出的首个交互式体验,通过结合GPT技术,为用户提供基于房间尺寸、个人风格、可持续性偏好、预算和功能需求等因素的定制家居设计和购物建议。🌍全球社区分享:助手不仅展示IKEA庞大的产品目录,还允许用户从全球社区的设计灵感和真实家居改造故事中获取启发,同时获得家居专家的建议。站长网2024-02-06 14:34:120003华为Mate 60关键参数曝光:骁龙8 4G芯片、1.5K屏幕
快科技8月4日消息,博主数码闲聊站透露,华为Mate60系列目前还没有备案,也没有进入试产阶段,因此9月份不一定能发布。值得注意的是,数码闲聊站暗示,华为Mate60系列搭载高通骁龙84G平台。站长网2023-08-05 09:10:540000薇娅电商公司申请注销
企查查APP显示,近日,杭州谦寻电子商务有限公司新增简易注销公告,公告期自6月7日至26日。信息显示,谦寻电子商务公司成立于2016年11月,注册资本100万元,法定代表人为黄薇(薇娅)丈夫董海峰,同时,董海峰持有该公司51%股份,是公司大股东、实际控制人。此外,该公司还注册有“谦寻直播机构”公众号、“谦寻”“薇你而选”商标等。站长网2023-06-12 17:18:150001AI日报:字节推王炸级语音生成模型Seed-TTS;Suno新功能被Udio抢跑;腾讯发布开源混元DiT加速库;即梦全量上线实时画布功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节推语音生成模型Seed-TTS擅长感情控制,声音与真人无异站长网2024-06-06 21:07:540000AI软件初创公司Modulal寻求A轮融资以挑战英伟达
据TheInformation的一篇独家报道,人工智能初创公司ModularInc.正与包括GeneralCatalyst在内的投资者进行谈判,寻求一轮大规模的融资,该公司的估值将达到约6亿美元。站长网2023-08-14 09:12:000000