首个多模态开放世界检测大模型MQ-Det登场,精确率提升7.8%
要点:
1. MQ-Det是首个多模态开放世界检测大模型,通过融合文本描述和视觉示例查询,提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明,MQ-Det在LVIS基准数据集上取得显著的性能提升,支持finetuning-free和小样本检测,展现了多模态查询目标检测的潜力。
MQ-Det是一款革命性的多模态开放世界检测大模型,在NeurIPS2023首次亮相,引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询,以显著提升目标检测的精确率,整体性能提高了7.8%。

论文链接:https://arxiv.org/abs/2305.18980
代码地址:https://github.com/YifanXu74/MQ-Det
以往的目标检测模型主要采用文本查询的方式,通过类别文本描述在图像中查找目标。然而,这种方式存在一个问题,即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能,弥补了这些问题。视觉示例可以提供更丰富的目标特征线索,同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式,使用户可以更灵活地适应不同场景的需求。
MQ-Det的设计包括门控感知模块(GCP)和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中,用于接收视觉示例的输入,提升检测器的多模态查询性能。此外,MQ-Det采用了一种视觉为条件的掩码语言预测训练策略,解决了模型学习惰性的问题,从而更好地利用新加入的视觉查询特征。
实验结果表明,MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略,还在小样本检测任务上表现出色。在LVIS基准数据集上,MQ-Det实现了显著的性能提升,特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景,可用于实际应用领域,弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇,为开放世界检测领域注入了新的活力。
Sora团队深入解读视频生成模型 短期内不向公众开放
知名科技博主MKBHD日前专访了备受瞩目的Sora视频生成模型开发团队,就Sora的工作原理、当前发展状况及未来规划等进行了深入探讨。据了解,Sora由前OpenAI研究员BillPeebles、TimBrooks和DALL·E开发者AdityaRamesh组成。团队介绍,Sora是一款通过学习大量视频数据而能够生成逼真视频的AI模型,其灵活性和适应性都十分出色。站长网2024-03-13 15:17:530000ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程
两天前,OpenAI宣布要在一周之内将官方插件CodeInterpreter通过设置中的Beta面板向所有ChatGPTPlus用户提供。这个消息让很多人激动了起来,毕竟此前CodeInterpreter一直处于封闭测试阶段,只有一小部分用户真正使用过。这些内测用户用它来数据分析、创建图表、编辑文件、执行数学运算等,反响普遍不错。站长网2023-07-10 18:31:410003英伟达发布新型 Perfusion AI 图像生成器:只需 100KB 模型大小 就可创造性地描绘物体
在人工智能艺术创作工具的快速发展中,英伟达的研究人员推出了一种创新的文本到图像个性化方法,名为Perfusion。但与竞争对手相比,它并不是一个价值百万美元的超级大型模型。Perfusion的大小只有100KB,训练时间只需4分钟,能够在表达个性化概念时保持其特性,同时具有显著的创造性和灵活性。图片来自Nvidia站长网2023-08-02 15:47:200000测试发现,ChatGPT选股表现优于标准普尔500指数股票投资组合
ChatGPT会成为你的下一个基金经理吗?金融比较网站Finder.com发现,在八周的时间里,ChatGPT挑选的一个虚拟股票组合的表现优于标准普尔500指数——美国500家最有价值公司的名单。该投资组合在3月6日至4月28日期间上涨了4.9%,而同期英国十大领先投资基金的平均亏损为0.8%。相比之下,标准普尔500指数仅上涨了3%。站长网2023-05-09 10:47:440000Alteryx调查:31% 的企业使用生成式人工智能编写代码
本文概要:1.40%的数据分析领导者在工作中使用生成式人工智能,其中31%使用它来编写代码。2.大多数企业对AI感兴趣,但只有少数已经在使用中,并且在利用中寻求优化。3.企业对生成式AI的应用还存在一些担忧,包括数据隐私、结果可信度和专业知识不足等。站长网2023-08-21 16:19:120000