19024

谷歌AI推出ScreenAI：用于UI和信息图解读的视觉语言模型

站长网2024-02-21 10:08:538阅

划重点:

⭐️ Google AI 团队提出了 ScreenAI，这是一个视觉语言模型，可以全面理解 UI 和信息图。

⭐️ ScreenAI 在多个任务上表现出色，包括图形问答（QA），元素注释，摘要生成等。

⭐️ 该团队发布了三个新数据集，为未来研究提供更多资源。

Google AI 最近提出了 ScreenAI，这是一个视觉语言模型，旨在全面理解用户界面（UI）和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言，但由于每个领域的复杂性，创建一个统一的模型变得更加困难。为了解决这个问题，Google AI 团队提出了 ScreenAI 作为解决方案。

ScreenAI 具有处理图形问答（QA）等任务的能力，这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构，使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试，展示了这些设计决策如何影响模型的功能。经评估，ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果，参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色，优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务，另外两个数据集则专注于问答，进一步扩展了可用资源，以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计，ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

谷歌AI推出ScreenAI用于UI和信息图解读的视觉语言模型

0008

评论列表

共(0)条

相关推荐

站长资讯
研究：ChatGPT 的营养建议对非传染性疾病患者有限
**划重点:**-🤖新研究表明，ChatGPT无法替代医疗专业人员的咨询，特别是在处理患有多种非传染性疾病（NCDs）的患者的营养咨询时存在局限性。-🌐研究者通过对ChatGPT的使用进行评估发现，当处理重叠疾病时，该聊天机器人的效果下降，可能导致一些矛盾或不适当的建议。
站长网2024-02-19 18:12:00
0001
站长资讯
NordPass称:大多数用户使用密码习惯仍很糟糕 123456最常见
划重点:-NordPass发布了一份全球最常见密码的年度排行榜，显示大多数用户的密码仍然不安全。-由于用户倾向于使用简单密码，密码管理供应商NordPass呼吁采用更安全的密码策略。-研究还发现，流媒体平台的密码安全性相对较低。
站长网2023-11-20 11:01:20
0000
站长资讯
一款游戏的意外走红：谈电子恋爱，品赛博人生
一位负债累累、工作不顺的“loser”，突然有了一个机会让身边美女环绕，还彼此争着抢着来恋爱。这一剧情虽然俗套，但并不妨碍用户们上头。这款男性向的真人互动恋爱模拟游戏《完蛋!我被美女包围了!》（以下简称《完蛋》）刚一上线，就凭借真人演绎、无脑爽操作、故事线多元成为了当下爆款，还有玩家辣评“不是现实恋爱谈不起，而是电子恋爱更有性价比”。
站长网2023-11-02 11:17:04
0000
站长资讯
苹果发布 iOS 15.7.5.、macOS 11.7.6 和 macOS 12.6.5 安全更新
苹果公司今天推送了新的iOS15.7.5.macOSBIGSur11.7.6和macOSMonterey12.6.5更新，新软件为那些运行旧版Mac、iPad和iPhone的用户引入了安全改进，这些软件无法更新到iOS16.iPadOS16和macOSVentura。
站长网2023-04-12 12:38:41
0000
站长资讯
AI日报：百度发布文心大模型学习机；Open-Sora 1.1可生成21秒视频；Canva可以自动剪辑视频了；超牛ComfyUI节点AnyNode来了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、百度文心大模型学习机“小度学习机Z30”发布
站长网2024-05-28 19:38:27
0000