首个多模态开放世界检测大模型MQ-Det登场,精确率提升7.8%
要点:
1. MQ-Det是首个多模态开放世界检测大模型,通过融合文本描述和视觉示例查询,提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明,MQ-Det在LVIS基准数据集上取得显著的性能提升,支持finetuning-free和小样本检测,展现了多模态查询目标检测的潜力。
MQ-Det是一款革命性的多模态开放世界检测大模型,在NeurIPS2023首次亮相,引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询,以显著提升目标检测的精确率,整体性能提高了7.8%。
论文链接:https://arxiv.org/abs/2305.18980
代码地址:https://github.com/YifanXu74/MQ-Det
以往的目标检测模型主要采用文本查询的方式,通过类别文本描述在图像中查找目标。然而,这种方式存在一个问题,即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能,弥补了这些问题。视觉示例可以提供更丰富的目标特征线索,同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式,使用户可以更灵活地适应不同场景的需求。
MQ-Det的设计包括门控感知模块(GCP)和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中,用于接收视觉示例的输入,提升检测器的多模态查询性能。此外,MQ-Det采用了一种视觉为条件的掩码语言预测训练策略,解决了模型学习惰性的问题,从而更好地利用新加入的视觉查询特征。
实验结果表明,MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略,还在小样本检测任务上表现出色。在LVIS基准数据集上,MQ-Det实现了显著的性能提升,特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景,可用于实际应用领域,弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇,为开放世界检测领域注入了新的活力。
iPhone15价格跌至史上最低!苹果天猫官方店iPhone降价1000
苹果官网近日启动了降价活动,iPhone15系列降价500元、MacBookAir降800元,不过网友对此表示力度不足。而值得注意的是,在官网优惠的同时,苹果天猫官方旗舰店也加入了降价行列,活动从1月20日20点开始至1月31日。站长网2024-01-17 16:05:060000招了又裁?软件开发者发招聘后宣布:解雇整个技术团队,用AI取代
在AI应用及开发工具遍地开花的今天,它们能否代替人类工程师,帮助老板成功构建“一人公司”?抱着这样的想法,一名来自加拿大的软件开发者WesWinder试了试。0000Meta 已关闭 1000 多个涉及 ChatGPT 等生成式 AI 相关的恶意链接
Meta表示,它已经关闭了1000多个涉及ChatGPT的相关链接,这些链接会引导其用户访问恶意软件,因为犯罪分子正在利用人们对生成式人工智能的热潮来谋利。站长网2023-05-04 17:56:420000IBM 业绩好于预期股价上涨 首席执行官表示人工智能应用正在增长
站长之家(ChinaZ.com)10月26日消息:在周三的延长交易时段中,随着公司实现了大幅度的利润增长和其人工智能产品的日益普及,IBM的股价上涨了2%。站长网2023-10-26 11:26:130000马斯克的xAI,向特定用户发布第一款AI产品
11月3日晚,马斯克在社交平台宣布,其新成立的xAI人工智能公司,在11月4日向特定用户发布第一款产品,并声称“在某些重要方面,这是目前存在最好的。”根据xAI官网的介绍和马斯克与OpenAI的“恩怨”来看,xAI发布的可能是一款类ChatGPT产品,能生成各种文本、代码、总结内容等,帮助企业实现降本增效。站长网2023-11-04 10:59:470000