挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B
站长网2023-10-10 14:26:290阅
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。

试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
0000
评论列表
共(0)条相关推荐
Redmi K70系列官宣将于11月29日发布
小米官方宣布,RedmiK70系列手机的发布会将于11月29日晚7点举行。目前,小米已经对RedmiK70E一款机型进行了详细预热。这款新机将首发搭载天玑8300-Ultra处理器,配备1.5K柔性直屏,支持1920HzPWM高频调光,1800nit峰值亮度,12bit色深,配有5500mAh电池90W快充。站长网2023-11-23 09:25:140001电脑里破解软件又少一款!Win11原生录屏免费平替了:新增快捷键
快科技4月11日讯,去年12月,Windows11自带截图工具升级到了version11.2211.11.0版本后,录屏功能终于上线。据WL报道,微软正在开发一组新的Windows11键盘快捷键,即WinShiftR,按下后会弹出录制警告,点击开始即可,点击关闭后视频将被保存在本地。站长网2023-04-12 13:49:010000WPS逆袭微软Office背后 雷军揭秘:这是中国软件行业最励志的故事
快科技11月30日消息,日前雷军在武大130周年珞珈论坛演讲时提到,WPS是一个硬核的技术英雄梦想,是中国软件行业最励志的故事。WPS的逆袭,就是坚持的胜利。雷军表示,办公软件这样的大型商业软件,开发难度极高,目前全球主要就微软Office、金山WPS这两款。0000调查:欧洲有 72% 的组织采用生成式人工智能
最近全球影响力的领先解决方案集成商InsightEnterprises进行的一项调查显示,欧洲72%的组织正在采用或已经制定了关于生成性人工智能(generativeAI)的政策。只有6%的调查对象表示在近期没有采用生成性人工智能的计划。52%的受访者表示,未来三年采用生成性人工智能的主要原因是提高员工生产力。站长网2023-08-02 18:06:430000俞敏洪给抖音上了一课
风头正盛的东方甄选旗下直播间突遭抖音关停三天,如今期限已到,该直播间却并未在第一时间开播。这场风波要从7月26日说起,当天,“东方甄选自营产品”抖音账号发布停播通知,称因规则要求,暂停营业3天。随后,东方甄选在自有APP上开播,并宣布进行85折促销,该账号继续以“自营产品”这一名称在APP内直播,当晚同时在线人数超过2.6万。站长网2023-07-31 09:27:450000