谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐
**划重点:**
1. 🧠 谷歌研究团队与加州大学圣迭戈分校合作,提出了一种名为PixelLLM的智能模型,可实现细粒度定位和视觉-语言对齐。
2. 🌐 PixelLLM通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功解决了大语言模型在定位任务中的挑战。
3. 📈 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM展现出卓越的性能,证明其在视觉-语言对齐和定位方面取得了最先进的结果。
谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作,提出了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发,尤其是婴儿描述其视觉环境的方式,包括手势、指向和命名。
PixelLLM的独特之处在于,它通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功地实现了对定位任务的精准处理。为了实现这一目标,研究团队在单词特征之上添加了一个微型多层感知器(MLP),使其能够回归到每个单词的像素位置。低秩微调(LoRA)的使用使得语言模型的权重可以被更新或冻结,同时模型还能够接收文本或位置提示,以提供根据提示定制的输出。
PixelLLM的整体架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被馈送以提示为条件的图片特征和可选的文本提示,输出形式为每个单词的定位和字幕。该架构具有输入或输出语言或位置的多样性组合,对于各种视觉-语言活动具有灵活性和适应性。
研究团队对PixelLLM进行了评估,应用于密集目标描述、位置条件描述和引用定位等视觉任务。令人瞩目的性能指标包括在RefCOCO引用定位上的89.8P@0.5,Visual Genome条件描述上的19.9CIDEr以及密集目标描述上的17.0mAP。通过在RefCOCO上进行的消融研究显示,与其他定位公式相比,PixelLLM在密集像素定位公式上取得了3.7点的增益。
PixelLLM的主要贡献总结如下:
1. 引入了一种新的视觉-语言模型PixelLLM,能够生成单词定位并生成图片字幕。
2. 该模型支持文本或可选的位置提示,除了图片输入。
3. 使用本地化叙述数据集进行每个单词的本地化训练。
4. 该模型能够适应各种视觉-语言任务,包括分割、位置条件字幕、引用定位和密集描述。
5. 在位置条件字幕、密集描述和引用定位与分割等方面,该模型展现出卓越的性能。
这一研究成果标志着在大型语言模型领域取得的一项重要进展,为实现更精确的视觉-语言对齐和定位打开了新的可能性。
项目体验网址:https://jerryxu.net/PixelLLM/
论文网址:https://arxiv.org/abs/2312.09237
百度网盘推出高级图搜功能 更全面、更准确
百度网盘推出高级图搜功能,帮助用户快速找到上万张照片和视频。通过基于向量的语义搜索,百度网盘能够理解包含时间、地点、人物、事件等多个要素的组合搜索语句,提供更准确、全面的搜索结果。网盘还支持OCR识图和以图搜图功能,可以自动关联百科信息和全网信息,大大扩展了信息检索的维度。为了提高搜索速度,百度网盘充分利用云上算力,压缩本地索引大小,采用异构算力调度系统。站长网2023-07-18 00:04:330000拼视野、拼审美、拼深度,2024剧集市场进入“高品质2.0”阶段
2024年,观众想看好剧,已非难事。开年就出热剧成了长视频平台的“传统技艺”,《人世间》《狂飙》《繁花》《南来北往》年年如是;“喜人”纷纷出演喜剧,以最强的适配度让市场悄然掀起一阵“新喜剧”之风;《追风者》《大江大河之岁月如歌》《城中之城》里,可以看清不同岁月里“时代”与“人民”的风貌与信仰;“后五一档”横空出世《我的阿勒泰》,让所有人重新认识阿勒泰这个美丽的地方,诞生出全新的治愈系叙事……站长网2024-06-22 23:42:170000中年男人“闻神”一夜爆红,4天涨粉550万!赚了840万?真相是···
最近几天,一位中年大叔的自拍照火遍朋友圈,而且是很多微信好友接连发布。你肯定刷到过这张自拍,还有一段深情款款或鸡汤满满的文案,然而可能并不知道他是谁。他不是明星或网红,而是一位普通素人,名叫闻会军,抖音账号@闻神。但因为这些天的刷屏,给他抖音号带去了大量流量,他的科目三跳舞视频火爆抖音,多条视频播放量超过1亿。站长网2023-12-21 17:49:010002京东公布2023年“双11”活动时间 各阶段促销力度加码
站长之家(ChinaZ.com)10月13日消息:10月13日,京东正式公布了2023年“双11”购物狂欢节的时间安排和主要促销活动。本次“双11”将围绕“起售期”“开门红”“专场期”“高潮期”和“返场期”五个阶段进行,时间跨度一个月,从10月23日开始,至11月13日结束。随着消费需求不断释放,京东表示将进一步加大各时期的促销力度,其中重点是跨店满299元减50元的满减活动。站长网2023-10-13 10:30:310000华为畅享60 Pro将于5月18日发布
华为宣布,将在5月18日举行夏季全场景新品发布会,并发布畅享60Pro。据悉该手机采用了直屏设计,后置摄像头采用了“双环”设计,正面则配备了一块中置挖孔屏。此外,华为还将在发布会上一同发布全新华为WATCH4、华为MatePad、华为MateBook等系列。站长网2023-05-15 15:14:030000