清华大学开发出新视觉语言模型 可更准确理解 GUI
站长网2023-12-27 15:46:220阅
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。
CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。
CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。
CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。
这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。
CogAgent 的潜在应用包括:
自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导,例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。
CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。
地址:https://github.com/THUDM/CogVLM
0000
评论列表
共(0)条相关推荐
顺丰ID服务上线:自定义编码 可保护隐私
顺丰近日上线了一项名为“顺丰ID”的新服务,该服务允许用户设置自定义编码,以代替传统的地址信息。这个编码可以是任何用户选择的数字或字母组合,例如“888888”或“666666”等“靓号”。这项服务具有以下优势:信息保护:用户不再需要向寄件方提供详细的电话号码或地址,而是使用自定义编码进行收寄,大大增强了用户的隐私保护。下单便捷:用户只需提供顺丰ID,无需填写详细的地址信息,简化了下单过程。站长网2023-11-30 09:11:390000MIT等惊人发现:全世界AI已学会欺骗人类,背刺人类盟友,佯攻击败99.8%玩家
【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现,AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。AI教父Hinton的担心,不是没有道理。他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。当被问及,人工智能怎么能杀死人类呢?站长网2024-05-14 09:09:380000Kimi豆包,最近都盯上了浏览器
卷大模型应用落地,浏览器插件已成下一个“新战场”。这不,当红炸鸡子Kimi最近就上线了浏览器插件。消息一出,网友纷纷感叹Kimi官方终于下场了,要知道之前网友弄了个“民间版”就在谷歌收获了3w粉丝。和Kimi不谋而合的是,字节跳动旗下AI助手豆包此前也推出了浏览器插件版本,且最新已迭代至1.3.0。有体验过豆包插件的网友直呼:站长网2024-07-15 18:17:4000003个月累计交付7872台 小鹏X9问鼎中国纯电MPV销冠
快科技4月3日消息,小鹏汽车官方今日宣布,小鹏X9三个月累计交付7872台,问鼎中国纯电MPV销冠。据悉,小鹏X9售价区间为35.98万-41.98万元,于今年1月13日开始交付。小鹏X9基于扶摇架构打造,拥有前后一体式铝压铸底盘、全域800V高压平台、XNGP核心技术,同时,该车还是全球唯一标配后轮转向的MPV。站长网2024-04-08 12:41:390000KYP.ai获得欧洲顶级科技风投支持,融资1870万美元
文章概要:1.KYP.ai宣布完成1,870万美元的A轮融资,由OTBVentures领投,42CAP和TolaCapital跟投。2.KYP.ai的核心产品“Productivity360°”是一款帮助企业提高生产效率的智能管理工具。3.公司计划用资金扩展在美国的业务,并在欧洲和亚洲扩大现有大客户群体,推广新的生成式AI模型和工具。站长网2023-09-21 10:26:040000