视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装
文章概要:
1. BLIVA是一种视觉语言模型,擅长读取图像中的文本。
2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。
3. BLIVA在多个数据集上表现优异,可用于识别路牌、食品包装等场景。
BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。
加州大学圣地亚哥分校的研究人员开发了 BLIVA,这是一种视觉语言模型,旨在更好地处理包含文本的图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。
这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。
然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。
BLIVA 结合了 InstructBLIP 和 LLaVA
视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。
BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。

研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。
BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。
在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。

研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。
项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA
打工人年货节,在直播间学“分猪肉”
距离春节还不到两周,打工人还没放假,年味最先在网上蔓延开了。各大电商平台换上了大红大紫、龙腾遨游的“活动皮肤”,大主播(年货版)卖力地吆喝起来......打工人们分身乏术,一边准备着年会、述职,一边着急抢票,一边又操心起了家里的年货。站长网2024-01-29 16:03:360000恺英网络:已开始应用相关AI工具 并建立内部AI数据库
昨日,恺英网络在业绩说明会上提到,AIGC技术能够有效地降低研发成本、提升研发效率。目前,公司和重要的战略投资企业已经开始应用相关的AI工具,并逐渐建立内部AI数据库。AIGC技术在2D美术批量图片生成、基础代码复监和AI语音应用等领域已经显示出了明显的潜力,实现了成本和效率方面的提升。未来,公司将进一步研究和应用相关的AIGC工具,增强研发效率的提升力度。0000欧盟希望最早今年为生成式 AI 制定新规则:拟设立「AI 制作」标签
欧盟委员会执行副主席玛MargretheVestager周一对NikkeiAsia表示,欧盟希望最早在今年就ChatGPT等生成式人工智能的全球规则达成一致。站长网2023-04-25 14:19:0000012024年结束,哪里是原创动画的应许之地?
2024年即将落幕,这一年国产动画市场逐渐呈现出清晰且多元的态势。视频平台依旧是动画行业的重要力量,各家平台有的以“爽文漫”吸引观众,有的深耕“新国风”赛道,有的依靠大IP与大制作,在异能和科幻题材中持续发力。市场上IP改编作品依旧是主流。行业早早就有了共识,依靠IP,动画作品成功率相对稳定,原著受众作底,动画视听吸引新观众,最终圈层融合实现商业变现。站长网2024-12-23 14:19:380000内卷的咖啡,压垮失控的打工人
流水线作业,新时代的“进厂打螺丝”在一众全自动咖啡机面前,使用半自动咖啡机的Manner有他们自己的坚守。其创始人韩玉龙曾解释,“不想要机械化,不想抹杀掉每一个咖啡师的个性,这应该是一个有感情的行业。我们希望每一个咖啡师都有自己的客人和粉丝。我们也会有技术手段让咖啡的容错率更高。”然而现实是,每天300-500个咖啡订单面前,咖啡师最终沦为一个个没有感情的机器。站长网2024-06-29 22:14:310003