智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
站长网2023-12-21 08:50:341阅
智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。
它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。

模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。
CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。
Github:
https://github.com/CogNLP/CogAGENT
cogagent-chat:
https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary
cogagent-vqa:
https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary
0001
评论列表
共(0)条相关推荐
智源研究院开源18种语言文图生成模型 利好中文用户
智源研究院发布了新款模型AltDiffusion-m18,该模型支持18种语言的文图生成,包括中文、英文、日语、泰语、韩语、印地语、乌克兰语、阿拉伯语、土耳其语、越南语、波兰语、荷兰语、葡萄牙语、意大利语、西班牙语、德语、法语、俄语。这是非常好的消息,因为现有的非英文模型选择非常有限,用户需要将prompt翻译成英语再输入模型,这使得整个过程非常复杂,同时也会影响生成图片的准确性。站长网2023-05-08 15:10:020000AI视野:Meta开源文生图模型RCG;百川智能发布角色大模型;AMD推AI电脑处理器Ryzen8000G;大众汽车将ChatGPT集成至多款车型
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📈💻💡大模型动态麻省理工、Meta开源创新文生图模型RCG麻省理工与Meta共同开发了“表示条件的图像生成”模型,无需任何人工标注,生成出来的图片效果显著。站长网2024-01-09 16:12:260001上传聊天记录「克隆」自己,这家初创公司让《黑镜》第一集走进现实
如果上传自己的聊天记录和语音文件,就能「克隆」一个真实的自己,你愿意吗?在十年前首播的美剧《黑镜》中,第一集的剧名是《马上回来》,故事讲述了女主的男友不幸因车祸去世,在葬礼上,她的朋友告诉她,有个软件能收集一个人生前的所有信息,从而模拟出他生前几乎完美的对话功能。最终,女主同意了通过分析他已故男友的社交媒体和短信中的内容,从而「克隆」了他的人格,甚至还收到了模拟男主的身体。站长网2023-09-13 09:44:200001从蓝V到达人,招聘内容席卷社交平台
“这是一条正经的招聘”“(北京招聘)找工作的宝子赶快来!”“找人,北京,双休,9K”“我开始招人了,期待我们会成为工作伙伴”……最近,社交平台上招聘内容涌现,这在小红书尤为明显,相关笔记吸引众多用户围观讨论,这似乎成了平台新晋流量密码。招聘笔记几分真实,几分噱头?社交平台并不具备专业的招聘工具与基础设施,仅靠只言片语的招聘信息究竟效率几何?招聘方不走寻常路,扎堆社交平台做招聘站长网2024-08-01 10:44:060000陶喆视频号演唱会,更像在内测会员功能
昨天(7月14日)晚上8点,陶喆在视频号举办了首场线上演唱会。开播前5分钟,直播间已有178.6万人看过,截至演唱和花絮播放完毕(未包含回放),有3200多万人在线观看了这场演唱会。另据微信指数显示,“陶喆”7月14日当天,创造了7000多万搜索热度。站长网2023-07-16 10:43:510001