最强“全开源”多模态分割一切大模型APE
要点:
1、APE 是一种全开源的多模态分割模型,通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式以及统一前景和背景粒度来提高分割效果。
2、APE 的方法主要包括独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度。在多个常见数据集上进行实验,APE 方法取得了强力的分割效果。
3、APE 方法在各个检测、分割和指向性检测数据集上都比之前的方法表现好,在 D3数据集上取得了显著的提升。在开集检测、开集分割和视觉定位等任务上,APE 方法也展现出竞争力,取得了新的 SOTA 结果。
APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少计算复杂度和内存消耗,从而有效地表达语义信息。

论文地址:https://arxiv.org/pdf/2312.02153.pdf
开源链接:https://github.com/shenyunhang/APE
Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo
APE 采用了不同的特征融合方式来处理不同类型的 Prompt。对于纯类别名的文本特征,采用一种 “zero” 文本 token 作为替代,以避免过拟合问题。而对于语言描述的文本特征,采用特定的融合方式将其与视觉特征进行语义级的理解。此外,APE 还通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度,从而实现一次性检测和分割。
APE 还通过统一前景和背景粒度来提高分割效果。在分割任务中,前景和背景的粒度是不同的,但传统方法往往面临前背景冲突的问题。为此,APE 提出统一前景和背景的粒度,将背景的不同块视为独立的标签,从而使模型可以采用统一的架构训练前景和背景数据,并方便地融入大规模的 Class-Agnostic 数据。
APE 在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在 D3数据集上,APE 的表现显著优于其他方法。在开集检测任务中,APE 在常见数据集上的效果也明显优于其他方法。此外,APE 还在开集分割任务和视觉定位任务上取得了竞争性的结果,在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。
APE 是一种非常有潜力的多模态分割模型,具有广泛的应用前景。通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度,APE 在多个常见数据集上取得了强力的分割效果,并展现出竞争力的结果。未来的研究可以进一步探索 APE 在其他视觉任务中的应用,以及对其方法进行优化和改进。
奇安信:已能够识别多种AI伪造生成的虚假图片视频
奇安信5月25日在互动平台表示,目前已深入布局生成式人工智能模型,并拥有在网络安全领域一流的人工智能团队和研发能力。奇安信人工智能研究院基于自身积累海量知识和大数据,在深度伪造、深度鉴伪等技术取得了重大突破,已经能够准确识别多种前沿AI伪造技术生成的虚假图片视频,可以成为防止生成式人工智能生成虚假信息的有力武器。站长网2023-05-25 16:37:550002魅族Flyme中文OS名投票正式开启 “无界”暂时领先
魅族科技最近启动了一个为Flyme操作系统征集中文名称的活动,今日,魅族宣布中文OS名投票正式开启,经过几轮投票后,最终将在发布会现场确定名称。此前,魅族表示,Flyme也需要一个像鸿蒙、澎湃一样响亮的中文名。从目前的投票情况来看,大多数人倾向于使用“无界”作为Flyme的中文名称。这个名称也符合魅族所强调的“无界”概念,即通过多终端融合,为用户提供全方位、沉浸式的体验。站长网2023-11-27 14:17:46000021天长续航、屏幕亮度翻倍!小米手环9正式发布:249元起
快科技7月19日消息,在今天新品发布会上,小米正式发布了诸多新品,其中就包括小米手环9。小米手环9共有三个版本,具体价格如下:小米手环9标准版:249元小米手环9NFC版:299元小米手环9NFC陶瓷特别版:349元站长网2024-07-21 02:58:36000098年小伙,做电商起家,年收入2000万,他是怎么做到的?
浙江小伙,25岁,没上过大学,做电商,年收入2000万,最高一天能有200万收入,是不是觉得不可思议。我第一次看到这段视频的时候也不敢相信,但这世界总有这种头脑灵活执行力非常强的人能够脱颖而出。这个人叫余文,我是在抖音上刷视频刷到这个人的故事的,一开始我也觉得不真实,很假。看到后面这个小伙子的谈吐,我发现这个人思路清晰,表达逻辑很有条理,虽然没读过大学,但是认知不比那些读过书的人低。站长网2023-05-23 09:53:250009超越 ChatGPT ?AutoGPT 爆火,两周斩获 50k+ Star:无需人类插手,自主完成任务!
刚上线两周就收获50kStar,看来Auto-GPT是真的火了!(项目地址:https://github.com/Torantulino/Auto-GPT?ref=jina-ai-gmbh.ghost.io)站长网2023-04-14 18:10:370000