谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:
⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。
⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。
⭐️ 该团队发布了三个新数据集,为未来研究提供更多资源。
Google AI 最近提出了 ScreenAI,这是一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言,但由于每个领域的复杂性,创建一个统一的模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。
ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。
团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。
团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。
ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。
论文地址:https://arxiv.org/abs/2402.04615
户均网速491.5Mbps!中国宽带现状:百兆普及率94.8%、千兆用户占比近三成
中国电信市场最新动态根据中国信通院发布的数据,截至2024年7月末,中国基础电信企业移动数据流量业务收入为3817亿元人民币,同比下降2.1%。宽带网络普及率提升0000商家:双十一咋变成这样了……
一年一度的双11大促即将开始,各大平台、电商卖家都在摩拳擦掌,迎接疫情放开后的第一个双11。截至目前,各平台双11招商大会已经陆续召开。快手将最早开始大促,预售从10月18日起;京东最晚结束,大促延续到11月13日。今年双11,淘宝取消预售,天猫“立减”和“满减”二选一;抖音全面取消跨店满减,推出抖音商城金卡,对标京东plus会员和淘宝88vip;站长网2023-10-15 09:16:340000抖音打击二手车违规营销行为 累计下架违规视频12万余条
抖音发布《打击二手车违规营销行为的公告》称,部分二手车账号存在提供虚假车源、违规线下引流、诱导用户交易等行为,如在直播中以打赏金额作为车辆定金,通过低价内容引导用户线下交易并提供其他车源,隐瞒事故车、泡水车、调表车等车况信息,严重误导用户,造成部分用户财产损失和人身安全隐患。同时,个别账号以“死人车”等为噱头,并结合“黑狗验车”“八卦作法”等迷信行为博眼球营销,发布违法违规信息,破坏平台内容生态。站长网2023-10-16 23:51:130002辛巴称计划暂停带货去学习AI:希望找到新的发展方向
近日,辛巴在直播间中透露了辛选直播带货的实际情况,他坦诚地表示,公司的盈利情况并不像外界所想象的那样可观,甚至可以说是一年的努力最终只是“白忙一场”。为了更具体地说明这一点,辛巴还详细列举了辛选的部分开支情况。他提到,公司每年需要支付给4860名员工共计11亿多元的工资,而房租水电等日常开支也高达2亿多元。此外,为了与平台合作,辛选还需向平台支付超过20亿元的费用。站长网2024-03-14 08:56:100002李彦宏再提「车水马龙」,底气来自哪里?
大语言模型的能力快速跃进,人类几乎一夜间跑步进入AI时代。年初,ChatGPT和文心一言等生成式AI产品带来了通用人工智能的第一缕曙光。大数据、大算力、大模型,导致了智能涌现。人工智能发生了方向性改变,从辨别式AI走向生成式AI。大模型还重新定义了人机交互,重新定义营销和客服,甚至开创了新的生态系统。站长网2023-05-20 11:10:050000