高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用
划重点:
🔍 最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。
🚀 团队引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。
🌟 Griffon v2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。
近来,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。特别是在区域级任务,如引用表达理解(REC)中,经过图像文本理解和推理的发展之后,这一进展变得明显。诸如Griffon之类的模型在任务中表现出色,如目标检测,这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。
尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。
为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。
这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。
Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。
该团队总结了他们的主要贡献如下:
- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。
- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。
为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。
项目入口:https://github.com/jefferyZhan/Griffon
论文地址:https://arxiv.org/abs/2403.09333
百度小度青禾手机入网 支持4G网络搭载安卓系统
小度青禾手机已在工信部认证网站现身,型号为XD-SEE00-2301,支持TD-LTE/LTEFDD等4G网络,采用双卡双待设计,搭载安卓系统,水滴屏,后置双摄,塑料直角中框。据透露,该手机预计于5月份下旬发布。据悉,小度青禾手机将整合小度AI技术能力,是智能手机市场的“新物种”,目前正处于发布前的最后准备阶段。站长网2023-05-12 11:01:380000小米618战报:全渠道累计支付金额破263亿元
站长之家(ChinaZ.com)6月19日消息:今年的618大促落下帷幕,小米官方揭晓了战果:全渠道累计支付金额飙升至263亿元,这一数字不仅彰显了小米的强劲销售实力,更刷新了其历年大促的销售纪录。清晨,小米创始人雷军便通过社交媒体,向广大消费者表达了由衷的感谢,肯定了这一佳绩背后是消费者们的鼎力支持。站长网2024-06-24 00:04:520000抖音加注中长内容影响了谁
借助用户时长上的优势,不断内化竞争对手的核心能力,成为超级App的一种宿命,抖音也不会例外。作者|李威(北京)抖音的内容在悄悄变长,很多用户都没有意识到,自己已经在不自觉地观看更多时长5分钟以上视频。甚至有很多创作者开始将完整的影视解说、知识讲解等内容放在一个视频中进行发布,时长往往会超过30分钟。站长网2023-10-14 09:08:200003京东618推出2元包邮活动 5月31日晚8点正式开始
在2024年京东618启动发布会上,京东宣布,从5月31日晚8点开始,京东618大促正式拉开帷幕。为了让消费者能更直接地感受到优惠,京东特别推出了百亿补贴和便宜包邮等活动,同时每天还为消费者准备了20元的额外补贴,让实惠触手可及。站长网2024-05-28 19:35:450000微软Azure新动向:GPT-4 Turbo与GPT-3.5 Turbo全球发布
站长之家(ChinaZ.com)11月23日消息:在微软云开发者大会上,公司首席执行官SatyaNadella宣布Azure开放服务即将推出更新的生成式AI模型,为开发者提供更先进、高效的人工智能工具。站长网2023-11-23 16:05:120000