谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:
⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。
⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。
⭐️ 该团队发布了三个新数据集,为未来研究提供更多资源。
Google AI 最近提出了 ScreenAI,这是一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言,但由于每个领域的复杂性,创建一个统一的模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。
ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。
团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。
团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。
ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。
论文地址:https://arxiv.org/abs/2402.04615
BP 宣布通过 Copilot for Microsoft 365 生成式 AI 来提升全球员工体验
英国石油公司(BP)近日宣布,将「扩大使用生成式人工智能,通过CopilotforMicrosoft365来增强其全球员工体验」。BP是全球首批作为这一「智能AI助手」发布合作伙伴的公司之一。该公司计划自2024年初开始,在其全球大部分员工中推广此技术。站长网2023-11-23 17:48:280001润建股份与百度智能云合作 推出“曲尺”人工智能开放平台
润建股份与百度智能云举行战略合作签约仪式,双方将合作共同推出基于百度智能云千帆大模型平台的产品和解决方案,在市场拓展、集成开发、实施交付、运营运维等领域开展深度合作,共同推动大模型技术创新和行业应用落地。在本次发布会上,润建股份发布了“曲尺”人工智能开放平台和公司人工智能战略白皮书,润建股份将结合百度的文心大模型能力,在“曲尺”平台上构筑面向管维与政企数字化的行业模型及场景应用。站长网2023-07-26 09:59:240000世界卫生组织概述对卫生领域人工智能的监管考虑
站长之家(ChinaZ.com)10月20日消息:世界卫生组织今天发布了一份新的出版物,强烈呼吁加强对医疗行业使用人工智能的监管,以防止人工智能的滥用。这份出版物突出强调,必须建立安全有效的人工智能系统,迅速向有需要的人群提供适当的系统,并促进利益攸关方之间的对话,包括开发人员、监管机构、制造商、卫生工作者和患者。站长网2023-10-20 10:38:000000小冰开放300个GPT克隆人名额 年底前扩大至10万人
小冰公司于5月16日宣布启动“GPT克隆人计划”,可以为明星红人、专家学者或普通人创造源于本人性格、技能、声音、外貌的AI克隆人。该计划基于小冰框架大模型、神经网络渲染及超级自然语音技术,可进行实时情感交互,提供AIGC能力,并拥有自己的朋友圈。站长网2023-05-17 10:35:260000韩国AI研究机构出品!MagiCapture:个性化生成高分辨率肖像照片
文章概要:-MagiCapture是韩国AI研究机构的最新成果,致力于解决多概念定制挑战,实现高质量肖像照片的个性化生成。-该方法采用多概念定制,融合主题和风格概念,只需少量参考即可生成高分辨率肖像照片。-研究人员提供了新的注意力重新聚焦损失、即时学习策略,在定量和定性评估中明显优于基线方法。站长网2023-09-19 14:44:100002