注册

清华大学开发出新视觉语言模型

首页标签清华大学开发出新视觉语言模型

站长资讯
清华大学开发出新视觉语言模型 可更准确理解 GUI
清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。CogAgent通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的GUI元素和文本内容，这是有效GUI交互的关键要求。
站长网2023-12-27 15:46:22
0000

热点

宇树科技放大招！全新人形机器人来了：26关节钢铁侠同款胸灯
2025-05-31 18:26:47
从亏损百亿到单季度盈利，优酷的胜负手
2025-06-01 01:44:05
给动漫角色“看病”，他的二次元医学课堂凭啥让200万人上头
2025-05-31 18:36:36
5亿用户捧出“教育界消消乐”，多邻国靠AI能走多远？
2025-05-31 18:33:44
抖音集团成立短剧版权中心，为行业精品化释放出何种信号？
2025-05-31 18:32:46
Q1强势增长后，快手直播再蓄大招
2025-05-31 18:32:16
京东618正式开启：苹果、小米、华为等成交额迅速破亿
2025-05-31 18:26:18
华为系最贵豪车！尊界S800上市1小时大定破1000台
2025-05-31 18:25:50
首发自研3nm旗舰芯！小米15S Pro维修价格出炉：换主板2690元起
2025-05-31 18:25:22
美团宣布升级骑手大病关怀计划：众包骑手子女纳入保障范围
2025-05-31 16:51:50

关注

Mythik获1500万美元种子轮融资，要成为“东方迪士尼”
2025-05-26 15:15:05
手机满意度跌至 10 年来的水平，AI人工智能只是部分原因
2025-05-26 15:13:49
OpenAI 进军硬件领域，将收购 Jony Ive 的 AI 创业公司
2025-05-26 15:13:15
蜜雪冰城回应网友倒卖柠檬水赚差价，网友：这违法吗？
2025-05-26 15:13:06
苹果开放 AI 模型……计划于下个月在 WWDC 上发布
2025-05-26 15:12:02
马斯克：特斯拉将于 6 月底在奥斯汀启动 Robotaxi 试点
2025-05-26 15:11:44
谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验
2025-05-26 15:10:44
本田大幅削减电动汽车投资，将重点转向混合动力汽车及柔性制造
2025-05-26 14:29:29
骆歆 Rita 领衔！《剑侠情缘?零》明星主播天团助阵公测
2025-05-26 14:28:30
谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”
2025-05-26 14:25:26

推荐