高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用
划重点:
🔍 最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。
🚀 团队引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。
🌟 Griffon v2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。
近来,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。特别是在区域级任务,如引用表达理解(REC)中,经过图像文本理解和推理的发展之后,这一进展变得明显。诸如Griffon之类的模型在任务中表现出色,如目标检测,这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。

尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。
为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。
这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。
Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。
该团队总结了他们的主要贡献如下:
- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。
- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。
为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。
项目入口:https://github.com/jefferyZhan/Griffon
论文地址:https://arxiv.org/abs/2403.09333
花费超10万、下单300多次,找女生“扮男友”为什么火了?
25岁的灿灿最近迷上了“花钱雇人和自己约会”,从去年开始,她已经尝试了300多次cos委托,花费超10万。和以往“租男友”“租女友”有所不同,在这类委托中,双方多为女性,且被委托方要打扮成游戏里的男性角色。这种新型玩法虽然不能被所有人理解,但近期话题度飙升,“cos委托”、“单主”、“委托老师”这三个词,也频繁挤占各大社交媒体。0000比特币超白银 成全球市值第八大资产
在加密货币市场近期持续走强的背景下,比特币价格于3月11日成功站上71000美元大关,并呈现出稳步上升的态势。这一强势表现使得比特币的市值也达到了新的高度,以1.41万亿美元的新市值超越了白银,成功跻身全球市值第八大资产的行列。站长网2024-03-12 11:56:040000AI视野:腾讯云AI绘画上线SaaS版本;SOLAR10.7B大模型屠榜;LG发布全新AI笔记本;麻省理工开源Stream Diffusion
新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用腾讯云AI绘画上线SaaS版本腾讯云AI绘画推出SaaS版本,成为国内首批通过中国信通院评估的AIGC绘画平台,提供API和在线工具,支持智能图生成、文生成图等多种能力。【AiBase提要:】🚀腾讯云AI绘画推出SaaS版本和API两种产品形态,满足不同场景需求,支持智能图生成、文生成图等多项能力。站长网2023-12-29 15:13:510000“支小宝”出世,AI生活服务听起来很美
在2024年,人工智能应用领域迎来了前所未有的爆发期。在这一背景下,各大科技巨头纷纷加大了对大模型技术的投入和升级力度。在这样的技术浪潮中,支付宝推出了一个名为“支小宝”的APP。9月5日,2024Inclusion·外滩大会上,支付宝正式发布AI生活管家App“支小宝”。站长网2024-09-12 03:55:460000谷歌Gemini翻车内幕被曝光:内部管理混乱,生图机制过分 “多元化”
划重点:⭐️谷歌Gemini生图机制内幕曝光⭐️内部“多元化”政策影响图片生成流程⭐️员工爆料谷歌内部管理混乱近日,谷歌Gemini生图机制内幕曝光,显示其内部管理混乱,生图机制过分“多元化”。站长网2024-03-07 16:42:500000