谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
**划重点:**
1. 🌐 **ScreenAI引领AI界新趋势:** 谷歌研究推出ScreenAI,该AI模型能理解用户界面和信息图表,刷新各项任务的性能指标,包括根据信息图表回答问题、总结内容以及导航用户界面。
2. 🧠 **技术创新:** ScreenAI采用新颖的截图文本表示方法,通过识别UI元素的类型和位置,利用Google LLM PaLM2-S生成合成训练数据,使模型能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。
3. 🚀 **未来展望与挑战:** 尽管ScreenAI在改善对数字内容理解方面取得了一定进展,但模型尚不能执行生成的操作。研究人员表示,尽管该专用模型在其类别中表现最佳,但在与更大型模型(如GPT-4和Gemini)的某些任务上仍需进一步研究,以推动其实际应用的发展。
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表,而且在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。
ScreenAI的核心创新在于对截图的文本表示方法。该模型能够识别UI元素的类型和位置,这一方法使用了Google LLM PaLM2-S生成的合成训练数据,使其能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。
为实现这一创新,ScreenAI将谷歌先前的技术进展,如PaLI架构和Pix2Struct的灵活修补机制,相结合。后者根据宽高比将图形分割为可变网格。ScreenAI通过图像编码器和多模态编码器处理图像和文本输入,然后使用自回归解码器生成文本输出。
研究人员进行的实验证明,模型性能随着模型大小的增加而提高。这表明通过扩大模型规模,可以进一步提升性能。与类似规模的模型相比,ScreenAI在各项基准测试中表现最佳,通常超过更大型模型。此外,使用光学字符识别(OCR)从截图中提取文本内容对模型性能有轻微积极影响。
然而,尽管ScreenAI在数字内容理解方面取得了一定里程碑,但模型尚不能执行生成的操作。研究人员指出,尽管目前有一些在智能手机上运行的语言模型,但缺乏更强大的多模态模型,这些模型可以结合文本、图像、音频和视频。他们预测,随着像ScreenAI这样的模型的发展,仅使用自然语言对智能手机和用户界面进行自动化处理将在不久的将来变得更加先进。
研究人员强调,虽然他们的专用模型在其类别中是最佳的,但在某些任务上仍需要进一步研究,以缩小与更大型模型(如GPT-4和Gemini)的差距。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
立方数科推出AI模型训练平台立方PAI
近日,由立方数科自主研发的立方云PAI经国家版权局审核,符合《计算机软件保护条例》和《计算机软件著作权登记办法》的相关规定,认定为原始取得,成功获得《计算机软件著作权登记证书》。立方PAI提供完整的人工智能模型训练和资源管理能力平台,易于扩展,支持各种规模的on-premise、on-cloud和混合环境,并且提供诸多AI用户友好功能,使最终用户和管理员更容易完成日常的AI任务。站长网2023-07-15 01:59:000001微信: 6 月 30 日后 公众号商业合作营销内容应通过腾讯官方广告平台发布
微信官方发布《微信公众平台关于进一步规范营销内容的公告》称,根据《互联网广告管理办法》相关规定,公众号运营者在发布营销内容时,应依法标识广告内容,确保营销内容合规。在平台4月25日发布《关于微信公众号营销内容合规规范的通知》后,平台通过用户举报仍发现生态中营销内容疑似存在未进行广告内容标识、诱导营销、虚假广告等违法违规问题。站长网2023-05-25 08:30:490000微软Windows11更新 可从PC和安卓屏幕截图复制文字
近日,微软正在对Windows11进行一系列功能升级,针对截图工具和照片应用进行优化,为用户提供更多实用功能。更新后的Windows11截图工具加入了文字识别和复制功能,用户可以对屏幕截图进行文字检测,并可选择性复制需要的文字内容,大大优化了图片中的文字资料的转录和利用。同时针对手机链接应用进行升级,当在安卓手机拍照后,可快速通过截图工具提取照片中的文字。站长网2023-09-15 09:43:280002专访椰树 | 一年播放10亿,我是如何打造爆款直播间
编者按当下面临诸多挑战的震颤正覆盖一代人,这是我们正亲历的变数时期:经验不再可靠,趋势不再可判,命运不再有固定剧本。化繁就简,商业的最终目的是提供给消费者所需要的商品,一切伟大品牌的诞生,都是源于对消费者痛点和商业机会的嗅觉和把握,产品本身是随着消费需求而不断调整和进化的。说到底,谁取悦用户取悦得更好,就会在供过于求的时候有更大的机会。站长网2024-02-05 18:23:090000一款国民游戏,和中国游戏行业的八年
最近葡萄君总是会时不时感慨,游戏行业真的太年轻了。如果只谈国内,大概就三四十年的时间。更不用说,国产游戏逐渐摆脱大众的偏见和误解,真正成为一个主流行业,产值突飞猛进,其实也就是步入移动端时代后的这近十年。这段时间里诞生过很多爆款手游,畅销榜上随时可能出现有趣的画面,直到2015年《王者荣耀》的诞生。我们总说没有人能永立潮头,但它似乎就是那个唯一的例外。站长网2023-11-05 10:03:440000