高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

站长网2024-03-19 11:58:270阅

划重点:

🔍 最近，大型视觉语言模型（LVLMs）在需要文本和图像理解的任务中表现出色。

🚀 团队引入了Griffon v2，这是一种统一的高分辨率模型，旨在通过文本和视觉线索提供灵活的对象引用。

🌟 Griffon v2在引用表达生成（REG）、短语定位和引用表达理解(REC)等任务中表现出色。

近来，大型视觉语言模型（LVLMs）在需要文本和图像理解的任务中表现出色。特别是在区域级任务，如引用表达理解(REC)中，经过图像文本理解和推理的发展之后，这一进展变得明显。诸如Griffon之类的模型在任务中表现出色，如目标检测，这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究，以改善用户界面。

尽管在细粒度对象感知方面取得了巨大进步，但由于图片分辨率的限制，LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力，尤其是在GUI代理和计数活动等领域。

为了克服这一限制，一组研究人员引入了Griffon v2，这是一种统一的高分辨率模型，旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题，他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。

这一方法通过保留细微特征和整个上下文，特别是对于低分辨率模型可能错过的小事物，极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器，并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互，例如坐标、自由文本和灵活的目标图片。

Griffon v2在各种任务中都被证明是有效的，如引用表达生成（REG）、短语定位和引用表达理解(REC)，根据实验数据显示，该模型在目标检测和对象计数方面表现优于专家模型。

该团队总结了他们的主要贡献如下:

- 高分辨率多模态感知模型:通过消除对图像进行分割的要求，该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。

- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式，引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。

为了验证模型在各种定位任务上的有效性，进行了大量实验。在短语定位、引用表达生成（REG）和引用表达理解(REC)中，都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型，证明了其在感知和理解方面的优越性。

项目入口：https://github.com/jefferyZhan/Griffon

论文地址：https://arxiv.org/abs/2403.09333

高分辨率AI模型Griffonv2 通过文本和视觉提示提供灵活的对象引用

0000

评论列表

共(0)条

相关推荐

站长资讯
ChatGPT锐评“一生不结婚，会面临什么” 抖音获赞25.5万
ChatGPT3.5版本如今在手机端也能免费使用语音对话，激起了网友们的创意潮流。抖音博主“AI领航者·奕霆”挑战ChatGPT，提出了一个备受关注的问题:“一生不结婚，会面临什么?”ChatGPT的回答却出人意料:
站长网2023-11-28 16:04:01
0000
站长资讯
Trolly.ai：一键生成高质量SEO文章
Trolly.ai是一款基于Web的工具，运用人工智能技术快速生成专业内容，专为希望提升网站内容质量和生产力的用户而设计。该工具提供了一个文本编辑器，用户可以在其中撰写内容，并生成包括20多种语言在内的文章，具备多样的输出样式和变化。体验地址：https://trolly.ai/
站长网2023-11-28 18:18:47
0000
站长资讯
真我GT7 Pro正式发布：售价3599元起搭载骁龙8版处理器
今天下午，真我GT7Pro正式亮相，该手机提供了多种存储组合和价格选项，其中12GB256GB版本售价3599元，12GB512GB版本售价3999元，16GB256GB版本售价3899元，16GB512GB版本售价4299元，而顶配的16GB1TB版本售价4799元。真我GT7Pro带来了火星探索版、星迹钛、光域白三种配色，满足不同用户的审美需求。
站长网2024-11-05 17:08:25
0000
站长资讯
ChatGPT迎来史诗级iPhone时刻！OpenAI震撼登陆iOS，可精准识别中文
【新智元导读】ChatGPT破壳登录AppStore，随时随地用，中文语音精准识别，真「iPhone时刻」来临!一夜之间，OpenAI再放大招，ChatGPT官方应用上线!所有iPhone和iPad用户，已经可以从AppStore下载ChatGPT了。不过，目前只能美区的用户可登录。安卓版用户也不要着急，已经在路上了。
站长网2023-05-19 14:20:08
0000
折扣化改革，盒马的“山姆梦”还能实现吗？
12月20日，阿里巴巴集团CEO、淘天集团董事长吴泳铭兼任淘天集团CEO，并回应阿里将出售盒马的传言，假的。在流言满天飞时，盒马内部在悄悄变革。近期有细心的消费者发现，盒马App开通付费会员的入口消失了。实际上，自12月13日起，盒马App调整会员政策，停止开通新的付费会员，未到期的付费会员仍可以正常通过盒马App续费，已到期的会员如果续费，需要到本地的X会员店线下办理。
站长网站长资讯2024-01-01 10:44:23
0000