首个多模态开放世界检测大模型MQ-Det登场，精确率提升7.8%

站长网2023-10-18 21:29:370阅

要点:

1. MQ-Det是首个多模态开放世界检测大模型，通过融合文本描述和视觉示例查询，提升了目标检测精确率7.8%。

2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略，使其兼容现有检测大模型且具备多模态查询能力。

3. 实验结果表明，MQ-Det在LVIS基准数据集上取得显著的性能提升，支持finetuning-free和小样本检测，展现了多模态查询目标检测的潜力。

MQ-Det是一款革命性的多模态开放世界检测大模型，在NeurIPS2023首次亮相，引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询，以显著提升目标检测的精确率，整体性能提高了7.8%。

论文链接:https://arxiv.org/abs/2305.18980

代码地址:https://github.com/YifanXu74/MQ-Det

以往的目标检测模型主要采用文本查询的方式，通过类别文本描述在图像中查找目标。然而，这种方式存在一个问题，即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能，弥补了这些问题。视觉示例可以提供更丰富的目标特征线索，同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式，使用户可以更灵活地适应不同场景的需求。

MQ-Det的设计包括门控感知模块（GCP）和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中，用于接收视觉示例的输入，提升检测器的多模态查询性能。此外，MQ-Det采用了一种视觉为条件的掩码语言预测训练策略，解决了模型学习惰性的问题，从而更好地利用新加入的视觉查询特征。

实验结果表明，MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略，还在小样本检测任务上表现出色。在LVIS基准数据集上，MQ-Det实现了显著的性能提升，特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景，可用于实际应用领域，弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇，为开放世界检测领域注入了新的活力。

首个多模态开放世界检测大模型MQDet登场精确率提升78

0000

评论列表

共(0)条

相关推荐

站长资讯
腾讯云智能小样本数智人生产平台发布支持多模态数据输入
昨日，腾讯云智能小样本数智人生产平台首次对外发布，平台具有训练样本小、生产效率高、自动化生产等特性。只需要3分钟真人口播视频、100句语音素材，平台便可通过音频、文本多模态数据输入，实时建模并生成高清人像，在24小时内制作出与真人近似的“数智人”。
站长网2023-04-26 08:54:44
0003
站长资讯
马斯克宣布SpaceX星舰第五次试飞时间：预计 8 月底或 9 月初
在最近一次星舰试飞取得成功后，埃隆·马斯克宣布，SpaceX的下一次试飞将挑战更高难度，计划利用发射塔的机械臂来捕捉并回收“超重助推器”。
站长网2024-07-30 08:43:41
0000
站长资讯
Whimsical：超好用的AI生成思维导图工具
Whimsical是一个集白板和文档于一体的协作中心，它将图表、白板等多种工具融合在一起，成为一个统一的协作平台。Whimsical为用户提供了AI文本转流程图的功能，可以快速找到灵感，并且有各种模板和构件可供选择，帮助用户快速将想法变为现实。体验地址:https://top.aibase.com/tool/whimsical
站长网2024-01-18 14:49:41
0000
站长资讯
老黄深夜炸场，世界最强AI芯片H200震撼发布！性能飙升90%，Llama 2推理速度翻倍，大批超算中心来袭
【新智元导读】刚刚，英伟达发布了目前世界最强的AI芯片H200，性能较H100提升了60%到90%，还能和H100兼容。算力荒下，大科技公司们又要开始疯狂囤货了。英伟达的节奏，越来越可怕了。就在刚刚，老黄又一次在深夜炸场——发布目前世界最强的AI芯片H200!较前任霸主H100，H200的性能直接提升了60%到90%。
站长网2023-11-14 08:59:50
0000
站长资讯
微软必应聊天推出企业版并上线多模式视觉搜索图片功能
昨日，微软宣布，必应聊天企业版（BingChatEnterprise）以预览版的形式正式推出，此外还将同时推出多模式视觉搜索功能。据介绍，使用必应聊天企业版，用户和业务数据受到保护，不会泄漏到组织外部。聊天数据不会保存，也不会用于训练模型。
站长网2023-07-19 12:35:20
0000