首个多模态开放世界检测大模型MQ-Det登场,精确率提升7.8%
要点:
1. MQ-Det是首个多模态开放世界检测大模型,通过融合文本描述和视觉示例查询,提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明,MQ-Det在LVIS基准数据集上取得显著的性能提升,支持finetuning-free和小样本检测,展现了多模态查询目标检测的潜力。
MQ-Det是一款革命性的多模态开放世界检测大模型,在NeurIPS2023首次亮相,引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询,以显著提升目标检测的精确率,整体性能提高了7.8%。
论文链接:https://arxiv.org/abs/2305.18980
代码地址:https://github.com/YifanXu74/MQ-Det
以往的目标检测模型主要采用文本查询的方式,通过类别文本描述在图像中查找目标。然而,这种方式存在一个问题,即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能,弥补了这些问题。视觉示例可以提供更丰富的目标特征线索,同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式,使用户可以更灵活地适应不同场景的需求。
MQ-Det的设计包括门控感知模块(GCP)和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中,用于接收视觉示例的输入,提升检测器的多模态查询性能。此外,MQ-Det采用了一种视觉为条件的掩码语言预测训练策略,解决了模型学习惰性的问题,从而更好地利用新加入的视觉查询特征。
实验结果表明,MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略,还在小样本检测任务上表现出色。在LVIS基准数据集上,MQ-Det实现了显著的性能提升,特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景,可用于实际应用领域,弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇,为开放世界检测领域注入了新的活力。
在抖音赚钱的机会来了
从吾欢喜的衣橱、少女凯拉、罗拉密码、复古大爆炸等服装店铺,到NYX、BAUM葆木、浮气Fomomy、高丝、钟薛高等行业翘楚,几乎每隔一段时间都有传出电商闭店的消息。经济下行周期,消费需求疲软,电商规则趋严......这些都被拿来解释生意难做,但如股神巴菲特所说,“遇到危机的时候,关键在于你自己是怎么看”。0000海底捞将推行加盟特许经营模式:已开放加盟通道
快科技3月4日消息,据媒体报道,海底捞国际控股有限公司(简称海底捞”)发布公告称将推行海底捞餐厅的加盟特许经营模式,以多元经营模式进一步推动餐厅网络的扩张步伐。公告显示,餐饮行业近年来在连锁化经营、加盟模式上不断开拓、创新成长,海底捞认为目前按照以直营为主、适时引入加盟特许模式,将有助于公司实现进一步的适度扩张。站长网2024-03-05 12:44:390000微软收购动视暴雪被英国否决:NVIDIA竟个表示不服!
快科技4月28日讯,本周英国监管机构CMA旗帜鲜明地反对微软对动视暴雪的收购,斡旋努力了很久的微软相当失望,除了表示要上诉,甚至喊话对在英国经营业务感到挫败。按照CMA的说法,他们这么做的一个重要原因是要为云游戏提供更公平的竞争环境。万万没想到的是,云游戏服务之一NVIDIAGeForceNOW第一个站出来挺微软。站长网2023-05-12 20:36:000000福布斯:2023年上半年中国独角兽增量最多
7月23日消息,据澎湃新闻等报道,福布斯中国集团首席战略官晏格文(GrahamEarnshaw)近日在2023长江独角兽峰会上发布了“全球独角兽趋势报告”。报告数据显示,截至2023年6月30日,全球独角兽的总数量达到1637家。美国仍然是目前独角兽最多的经济体,其次是中国、欧洲和印度,分别为768家、394家、269家、87家。上述四个主要国家或地区的独角兽数量占到了全球九成的比例。0001国产特斯拉Model 3/Y全系上涨2000元:原因未知
快科技5月2日消息,从特斯拉官网查询可知,国产特斯拉Model3和Y价格上调,全系均涨2000元。其中特斯拉Model3入门版价格涨至23.19万元(此前为22.99万元),高性能版涨至33.19万元(此前为32.99万元);站长网2023-05-02 15:21:420003