登陆注册

支持GUI图形界面问答

  • 智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

    智谱AI开源了CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在GUI理解和导航方面表现出色,在多个基准测试上取得了SOTA的通用性能。它还支持高分辨率的视觉输入和对话问答,并且可以针对任意GUI截图进行问答。模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。
    站长网2023-12-21 08:50:34
    0001