首个多模态开放世界检测大模型MQ-Det登场,精确率提升7.8%
要点:
1. MQ-Det是首个多模态开放世界检测大模型,通过融合文本描述和视觉示例查询,提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明,MQ-Det在LVIS基准数据集上取得显著的性能提升,支持finetuning-free和小样本检测,展现了多模态查询目标检测的潜力。
MQ-Det是一款革命性的多模态开放世界检测大模型,在NeurIPS2023首次亮相,引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询,以显著提升目标检测的精确率,整体性能提高了7.8%。
论文链接:https://arxiv.org/abs/2305.18980
代码地址:https://github.com/YifanXu74/MQ-Det
以往的目标检测模型主要采用文本查询的方式,通过类别文本描述在图像中查找目标。然而,这种方式存在一个问题,即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能,弥补了这些问题。视觉示例可以提供更丰富的目标特征线索,同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式,使用户可以更灵活地适应不同场景的需求。
MQ-Det的设计包括门控感知模块(GCP)和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中,用于接收视觉示例的输入,提升检测器的多模态查询性能。此外,MQ-Det采用了一种视觉为条件的掩码语言预测训练策略,解决了模型学习惰性的问题,从而更好地利用新加入的视觉查询特征。
实验结果表明,MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略,还在小样本检测任务上表现出色。在LVIS基准数据集上,MQ-Det实现了显著的性能提升,特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景,可用于实际应用领域,弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇,为开放世界检测领域注入了新的活力。
靠聊天记录占据7月情感赛道榜首,视频号新的流量密码诞生?
你有过这样的经历吗?为了把事情说清楚,直接截图聊天记录或者合并转发聊天记录给朋友?或者说,看到别人发给你的聊天记录,一定仔仔细细看清楚上面的对话?聊天记录本是扁平化的存在,但现在有人把它做成了视频。站长网2023-08-09 17:01:160000“新娱乐”内容的风向标,指向大众与多元
如今的娱乐内容消费市场正在加速升温。暑假期间,周杰伦圆梦嘉年华助力锦鲤粉丝演唱会点歌,帮千万老铁实现点歌心愿、蔡依林在快手独家直播开唱、成龙野营谈唱会唤醒一代人的青春记忆……快手娱乐率先引爆了明星直播的暑期热潮,打造出了诸多明星的“直播大事件”。此外,短剧赛道也迎来集中爆发,快手娱乐推出的星芒短剧暑期档首次将短剧以档期化的方式运营,通过不同风格、不同题材的多元化作品满足用户的追剧需求。0000抖音电商宣布实施实时免佣政策,进一步升级长期免佣措施
站长之家(ChinaZ.com)10月20日消息:近日,短视频平台抖音的电商业务宣布,将对其“商品卡免佣”政策进行升级,在原有的长期免佣政策基础上,新增实施实时免佣措施。统计数据显示,今年3月以来,共有超过440万商家报名使用抖音商品卡,9月单月新增报名入驻商家就超过20万,部分商家通过商品卡免佣已获得超过250万元的免佣金额。站长网2023-10-20 16:10:280000多家快递宣布“春节不打烊” 京东、顺丰等明确加收资源调节费
随着春节临近,多家快递企业宣布将在春节期间保障正常寄递服务,其中包括京东、顺丰等。顺丰公告指出,春节期间将按重量加收资源调节费。而京东也表示,1月17日至2月17日期间将加收资源调节费,期间加收5元/票的资源调节费。菜鸟、申通、韵达等均表示春节期间将正常揽件、发件。站长网2024-01-19 09:53:280000OpenAI旗下GPTBot遭遇封锁,出版商担心内容被免费提供给AI聊天机器人
站长之家(ChinaZ.com)8月28日消息:近日,OpenAI旗下的网络爬虫GPTBot遭到了全球主要网站和出版商的封锁。自8月初以来,许多知名媒体公司如纽约时报、CNN、路透社等已修改robots.txt阻止GPTBot进入。德国最大的新闻门户Bild.de和SpiegelOnline也加入了封锁行列。截至8月底,全球前1000名网站中已有9.2%屏蔽GPTBot,每周增速达5%。站长网2023-08-28 15:38:380000