谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐
**划重点:**
1. 🧠 谷歌研究团队与加州大学圣迭戈分校合作,提出了一种名为PixelLLM的智能模型,可实现细粒度定位和视觉-语言对齐。
2. 🌐 PixelLLM通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功解决了大语言模型在定位任务中的挑战。
3. 📈 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM展现出卓越的性能,证明其在视觉-语言对齐和定位方面取得了最先进的结果。
谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作,提出了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发,尤其是婴儿描述其视觉环境的方式,包括手势、指向和命名。
PixelLLM的独特之处在于,它通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功地实现了对定位任务的精准处理。为了实现这一目标,研究团队在单词特征之上添加了一个微型多层感知器(MLP),使其能够回归到每个单词的像素位置。低秩微调(LoRA)的使用使得语言模型的权重可以被更新或冻结,同时模型还能够接收文本或位置提示,以提供根据提示定制的输出。
PixelLLM的整体架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被馈送以提示为条件的图片特征和可选的文本提示,输出形式为每个单词的定位和字幕。该架构具有输入或输出语言或位置的多样性组合,对于各种视觉-语言活动具有灵活性和适应性。
研究团队对PixelLLM进行了评估,应用于密集目标描述、位置条件描述和引用定位等视觉任务。令人瞩目的性能指标包括在RefCOCO引用定位上的89.8P@0.5,Visual Genome条件描述上的19.9CIDEr以及密集目标描述上的17.0mAP。通过在RefCOCO上进行的消融研究显示,与其他定位公式相比,PixelLLM在密集像素定位公式上取得了3.7点的增益。
PixelLLM的主要贡献总结如下:
1. 引入了一种新的视觉-语言模型PixelLLM,能够生成单词定位并生成图片字幕。
2. 该模型支持文本或可选的位置提示,除了图片输入。
3. 使用本地化叙述数据集进行每个单词的本地化训练。
4. 该模型能够适应各种视觉-语言任务,包括分割、位置条件字幕、引用定位和密集描述。
5. 在位置条件字幕、密集描述和引用定位与分割等方面,该模型展现出卓越的性能。
这一研究成果标志着在大型语言模型领域取得的一项重要进展,为实现更精确的视觉-语言对齐和定位打开了新的可能性。
项目体验网址:https://jerryxu.net/PixelLLM/
论文网址:https://arxiv.org/abs/2312.09237
中国高科集团与百度智能云合作 前者旗下应用引入文心大模型
近日,中国高科集团与百度智能云正式签署战略合作协议,双方将围绕“生成式大模型、公有云服务、产教融合”等方面开展深入合作,进一步推动人工智能前沿技术赋能。据介绍,中国高科集团和百度智能云此次合作将按照“生成式大模型、公有云服务、产教融合”三大方向展开。首先,在大模型方向,双方将基于文心大模型并结合高科集团自身业务展开生成式大模型深入合作,聚焦知识管理、智能客户、数字人直播、智能营销等方面。站长网2023-07-18 12:30:480000Chat-With-MLX:一个在Mac上集成各种开源模型的聊天界面
Chat-With-MLX是一个利用苹果MLX框架实现的高效、多语言支持的检索增强生成(RAG)聊天界面。这个聊天界面可以轻松地自动集成任何HuggingFace和MLX兼容的开源模型,并支持通过URL与Doc(x)、PDF、txt文件和YouTube视频进行交互聊天。项目地址:https://top.aibase.com/tool/chat-with-mlx站长网2024-03-01 15:27:410001苹果大模型MM1入场:参数达到300亿 超半数作者是华人
要点:苹果发布了多模态大型语言模型MM1,参数达到300亿,采用MoE架构,超半数作者为华人。MM1在模型架构、预训练数据选择和训练方法上进行了详细探讨,并在多项基准测试中表现出竞争力。MM1的预训练和监督微调结果显示,采用不同的数据和训练策略可以获得更好的性能,MoE模型进一步扩展了潜力。站长网2024-03-15 14:34:160000SVD视频生成模型的Web平台开始发放测试资格
SVD视频生成模型的Web平台开始发放测试资格,并且升级的模型也已部署在上面。这个新的模型效果非常强大。现在,有资格参与测试的人们可以在平台上生成测试视频。地址:https://top.aibase.com/tool/stable-video-diffusion-ai这个新模型增强了人物和其他动物的动作幅度,不再像之前一样只有景物在动而任务不动的情况。希望模型文件可以尽快发布。站长网2024-02-04 10:02:280000鸿蒙智行官网正式上线:内含华为问界、智界汽车
快科技11月19日消息,我们从鸿蒙智行官方获悉,鸿蒙智行已正式上线。鸿蒙智行官网表示:鸿蒙智行(HIMA,HarmonylntelligentMobilityAlliance)是鸿蒙智能汽车技术生态联盟。据悉,此次鸿蒙智行官网共分为了两部分,分别是问界汽车和智界汽旨在与合作伙伴一起,推进汽车智能化技术发展,为用户打造卓越的智能汽车产品,提供极致的智慧出行体验,把数字世界带入每一辆车。0002