19538

谷歌发布可读屏AI模型ScreenAI：可理解用户界面和信息图表

站长网2024-03-05 13:16:143阅

**划重点:**

1. 🌐 **ScreenAI引领AI界新趋势:** 谷歌研究推出ScreenAI，该AI模型能理解用户界面和信息图表，刷新各项任务的性能指标，包括根据信息图表回答问题、总结内容以及导航用户界面。

2. 🧠 **技术创新:** ScreenAI采用新颖的截图文本表示方法，通过识别UI元素的类型和位置，利用Google LLM PaLM2-S生成合成训练数据，使模型能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。

3. 🚀 **未来展望与挑战:** 尽管ScreenAI在改善对数字内容理解方面取得了一定进展，但模型尚不能执行生成的操作。研究人员表示，尽管该专用模型在其类别中表现最佳，但在与更大型模型（如GPT-4和Gemini）的某些任务上仍需进一步研究，以推动其实际应用的发展。

谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表，而且在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上，创下了新的性能标杆。

ScreenAI的核心创新在于对截图的文本表示方法。该模型能够识别UI元素的类型和位置，这一方法使用了Google LLM PaLM2-S生成的合成训练数据，使其能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。

为实现这一创新，ScreenAI将谷歌先前的技术进展，如PaLI架构和Pix2Struct的灵活修补机制，相结合。后者根据宽高比将图形分割为可变网格。ScreenAI通过图像编码器和多模态编码器处理图像和文本输入，然后使用自回归解码器生成文本输出。

研究人员进行的实验证明，模型性能随着模型大小的增加而提高。这表明通过扩大模型规模，可以进一步提升性能。与类似规模的模型相比，ScreenAI在各项基准测试中表现最佳，通常超过更大型模型。此外，使用光学字符识别（OCR）从截图中提取文本内容对模型性能有轻微积极影响。

然而，尽管ScreenAI在数字内容理解方面取得了一定里程碑，但模型尚不能执行生成的操作。研究人员指出，尽管目前有一些在智能手机上运行的语言模型，但缺乏更强大的多模态模型，这些模型可以结合文本、图像、音频和视频。他们预测，随着像ScreenAI这样的模型的发展，仅使用自然语言对智能手机和用户界面进行自动化处理将在不久的将来变得更加先进。

研究人员强调，虽然他们的专用模型在其类别中是最佳的，但在某些任务上仍需要进一步研究，以缩小与更大型模型（如GPT-4和Gemini）的差距。为鼓励更多的发展，谷歌研究计划发布ScreenAI的评估数据集，其中ScreenQA已经提供了包含36，000张截图的86，000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。

谷歌发布可读屏AI模型ScreenAI可理解用户界面和信息图表

0003

评论列表

共(0)条

相关推荐

站长资讯
傍上中国邮政，雪王“入编”登上热搜！
蜜雪冰城，在博得用户关注上，可谓驾轻就熟，论其刷屏操作可以说是比比皆是，而令人印象最深刻可能便是那曲火遍整个网络的洗脑神曲“你爱我，我爱你，蜜雪冰城甜蜜蜜......”。昨天，#中国邮政是懂奶茶取名的#登上了热搜No.1，细细看才知道是蜜雪冰城与中国邮政联名了，引发了大众的的热评。01蜜雪冰城“入编”，网友玩疯了
站长网2023-08-10 18:13:48
0000
站长资讯
微信公众号来到AI推荐时代
作为有能力打通整个腾讯内容生态的大模型产品，腾讯元宝的低调出手，已然在行业内引起广泛关注。5月30日，腾讯混元大模型首个App“腾讯元宝”正式上线，定位为面向C端用户的全能AI助手，目前已登陆各大主流官方应用商店，网页端和小程序端也可以同步体验。腾讯元宝苹果应用商店页面与小程序体验端
站长网2024-06-03 10:30:30
0002
站长资讯
备忘录显示 OpenAI 支持开发先进人工智能系统需要监管许可
据OpenAI起草的一份内部政策备忘录显示，该公司支持要求任何想要开发先进人工智能系统的人获得政府许可的想法。这份文件还表明，该公司愿意公开用于训练图像生成器的数据。
站长网2023-07-21 16:46:47
0000
站长资讯
Dropbox将裁员500人并侧重整合AI部门
网络存储应用Dropbox宣布裁员约500名员工，占公司整个劳动力16%左右。削减人员数量是为了给公司AI部门释放更多资源。裁员是为了调整公司团队的技能组合，特别是在AI和早期产品开发方面。Dropbox集中了其核心和文档流程业务，并针对其产品开发团队进行了调整。
站长网2023-05-12 20:29:10
0001
站长资讯
一周收入20万，支付宝成为探店博主“第二春”？
甘肃天水麻辣烫火了，美食探店博主们都坐不住了。尝遍全国美食的UP主“盗月社食遇记”也没能禁得起诱惑，连发两条视频大快朵颐;更有探店博主向我们表示，“现在天水麻辣烫店内一半食客都是举着摄像机的同行”。一方面是与甘肃麻辣烫一起承接住泼天富贵的美食探店博主，另一方面则是逐渐内卷的探店行业生态。“90%以上的探店博主无法通过‘全职’养活自己。”深耕本地生活赛道两年多，某服务商创始人王强这样总结道。
站长网2024-03-20 15:23:17
0000