视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装
文章概要:
1. BLIVA是一种视觉语言模型,擅长读取图像中的文本。
2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。
3. BLIVA在多个数据集上表现优异,可用于识别路牌、食品包装等场景。
BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。
加州大学圣地亚哥分校的研究人员开发了 BLIVA,这是一种视觉语言模型,旨在更好地处理包含文本的图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。
这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。
然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。
BLIVA 结合了 InstructBLIP 和 LLaVA
视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。
BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。
研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。
BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。
在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。
研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。
项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA
PR+AI重新定义视频剪辑,Sora、Pika全接入,AI视频创企还有的玩吗?
还记得网友们用PS的GenerativeFill花式整活的盛况吗?接下来,被网友玩坏的可能要轮到PR了。无论你是专业的视频剪辑师,还是业余爱好者,对PremierePro(简称PR)这款软件都一定不陌生。前几天,Adobe官方发布了一条视频,快、准、狠地演示了PR即将上线的3个AI功能——对象添加、对象删除和生成扩展。站长网2024-04-23 16:32:420000冻结招聘,这家新能源车企宣布裁员
近日,多家媒体报道,瑞典电动汽车制造商极星将在全球范围内裁员10%,并且已经冻结了招聘工作。在该公司近日举办的财务会议上,已经员工通报了即将进行的裁员计划,但没有透露哪些部门将受到影响。站长网2023-05-24 16:35:340000淘宝开放微信支付,互联网大厂加速拆墙
近日,有不少网友发现淘宝可以支持跳转微信支付,完成付款。对此,淘宝官方客服回应道:微信支付目前仅针对部分用户、部分商品开放。相关话题#淘宝逐步开放微信支付#登上热搜,阅读量达到1.7亿。这一功能引起用户的广泛好评,有网友表示“格局打开了!买买买更方便了”“终于等到这一天了”,在一项媒体调查中显示,有超过五成的消费者希望微信支付接入淘宝。站长网2024-02-29 09:14:360000内容审核初创公司 Hive AI 寻求 2 亿美元融资:Netflix 和 Reddit 都是其客户
据知情人士透露,HiveAI是一家利用人工智能管理数字内容的软件公司,正在寻求融资2亿美元。预计该估值将高于该公司2021年的20亿美元估值。上述知情人士表示,Hive的估值尚未确定,但最终可能接近40亿美元。站长网2023-08-11 17:16:070001研究称懒惰是人类进步的根源!这是拖延症患者的福音!
大家是否曾经因自己的懒散而感到内疚?那么,我有个好消息要告诉你们!一项最新研究揭示了一个令人意外的发现:懒惰其实是人类进步的根源!但不幸的是,对于拖延症患者来说,他们无法对此进行评论。这个研究引发了广泛的争议和讨论。科学家们通过观察人类的行为、历史和社会发展,得出了一个大胆的结论:正是人类对劳动的厌倦和追求效率的欲望,催生了创新和进步。站长网2023-05-23 14:20:300004