视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装
文章概要:
1. BLIVA是一种视觉语言模型,擅长读取图像中的文本。
2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。
3. BLIVA在多个数据集上表现优异,可用于识别路牌、食品包装等场景。
BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。
加州大学圣地亚哥分校的研究人员开发了 BLIVA,这是一种视觉语言模型,旨在更好地处理包含文本的图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。
这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。
然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。
BLIVA 结合了 InstructBLIP 和 LLaVA
视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。
BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。
研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。
BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。
在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。
研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。
项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型,是真·智能的那种......这不,谷歌团队就做出来了一个强大的「读屏」AI。研究人员将其称为ScreenAI,是一种理解用户界面和信息图表的全新视觉语言模型。站长网2024-03-05 15:30:560000报道称Midjourney存在漏洞 用户可绕过生成违规图片
文章概要:1.最新研究揭示Midjourney图片生成器存在漏洞,容易被黑客入侵,可能导致虚假信息传播。2.研究发现,用户可以绕过Midjourney的规定,制作具有攻击性的政治图片,引发严重问题。3.尽管Midjourney的使用条款明确禁止制作攻击性、血腥或虚假图片,但研究表明用户仍能够绕过这些规定。站长网2023-09-26 18:00:450001镁除了烧,还能拿来干嘛?
镁(Mg)是宇宙中第九丰富的元素,它生成于巨大的老年恒星内部,由三个氦原子核相继加入一个碳原子核形成新的镁核。当像超新星这样的恒星爆炸时,大部分的镁被散射到星际介质中,在那里镁可以循环进入新的恒星系统。站长网2023-05-24 12:00:410000商汤科技与上海移动达成战略合作 布局“大模型+大算力”新赛道
近日,商汤科技与中国移动通信集团上海有限公司签署战略合作框架协议。根据协议,双方将以发挥各自优势、互信互利、合作共赢为主旨,作为推动数字化和智能化转型升级的主力军,聚焦智能算力建设、5GAI的战略,结合数字经济发展新趋势,布局“大模型大算力”的新赛道。通过“连接算力能力”的新型信息服务体系,在科技策源、通信服务、智慧家庭等领域进行深度合作,站长网2023-10-27 20:45:52000032k上下文可商用!长颈鹿来袭,开源大模型长度再创新高
要点:长颈鹿是基于LLaMA模型打造的,上下文长度达到32k,是目前开源大模型中最长的。研发团队Abacus.AI通过测试不同的上下文外推方法,发现线性插值效果最好,并在此基础上提出了PowerScaling和TruncatedBasis两种新思路。尽管Abacus.AI宣称长颈鹿是首个32k开源模型,但Together.AI更早发布了类似规模的版本,两者可以说并列第一。站长网2023-08-26 16:04:510000