清华大学开发出新视觉语言模型 可更准确理解 GUI
站长网2023-12-27 15:46:220阅
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。
CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。
CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。

CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。
这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。
CogAgent 的潜在应用包括:
自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导,例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。
CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。
地址:https://github.com/THUDM/CogVLM
0000
评论列表
共(0)条相关推荐
Claude3正式发布:号称性能超 GPT-4,免费使用、支持中文
划重点:🚀Claude3系列发布,包括Haiku、Sonnet和Opus版本,Opus在多个领域超越GPT-4。🌐用户可免费使用Claude3Sonnet模型,支持中文,API已覆盖159个国家/地区。📸新增多模态图像识别提问功能,Claude3在数学与推理、可视化问答等方面超越GPT-4V。站长网2024-03-05 13:16:120002微软Azure发布GPT-RAG,为LLM部署提供超智能解决方案
**划重点:**1.🛡️**安全第一:**GPT-RAG具备强大的安全框架,遵循零信任原则,确保敏感数据得到谨慎处理,为企业提供超级安全保障。2.🔄**自适应扩展:**该解决方案能够自动调整大小,即使在高峰期也能保持良好性能,确保在繁忙时刻仍然平稳一致。0000谷歌推出由 Gemini 驱动的网络安全产品 强化网络钓鱼防御
在RSA大会上,Google宣布了一项重要的产品更新:GoogleThreatIntelligence,这是一款结合了Mandiant专业知识、VirusTotal社区资源以及Google全球设备和电子邮件情报的全新威胁情报解决方案。该产品旨在帮助企业更快地获得威胁洞察,并有效保护自己免受网络威胁。站长网2024-05-07 16:55:380002《黑神话:悟空》通过ESRB评级!Xbox版本要来了
快科技10月20日消息,近日,《黑神话:悟空》通过了ESRB(娱乐软件分级委员会)的评级的T”评级(青少年级别)。值得注意的是,页面上支持平台显示为WindowsPC,PlayStation5,Xbox平台,这也意味着该游戏将在不久后登陆Xbox平台。而ESRB对《黑神话:悟空》的描述为:这是一款动作角色扮演游戏,玩家扮演天命人,执行寻找六根遗物的使命。站长网2024-10-20 14:05:370000科大讯飞星火认知大模型V3.0正式发布 对标ChatGPT 3.5
在今日的2023科大讯飞全球1024开发者节上,科大讯飞宣布,讯飞星火认知大模型V3.0正式发布,目前星火大模型已整体超越ChatGPT。科大讯飞董事长刘庆峰表示,今年的5月6号,讯飞星火正式发布,到现在为止已经历经了两次升级。讯飞星火3.0,它的标志是通用模型,要对标ChatGPT3.5,中文超越,英文相当。站长网2023-10-25 00:22:340000