挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B
站长网2023-10-10 14:26:290阅
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。

试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
0000
评论列表
共(0)条相关推荐
亚马逊 AWS 副总裁淡化人工智能存在威胁 生成式 AI 不会一个模型统治市场
尽管科技界有一些知名人士担心人工智能(AI)带来的潜在生存威胁,但AWS产品副总裁MattWood并不是其中之一。Wood一直是AWS在机器学习(ML)领域的旗帜人物,并且是该公司活动中的重要角色。在过去的13年里,他一直是AWS关于AI/ML的主要发声人,在几乎每次AWSre:Invent活动中都会就技术、亚马逊的研究和服务进展发表演讲。站长网2023-07-05 19:13:320000微软 Windows 11 的 Bing AI 推出 Chrome 原生深色主题
据techgoing报道,微软为Windows11推出原生深色主题的BingAIChrome版本微软开始在GoogleChrome和AppleSafari浏览器上推出BingChat,并正在测试原生深色主题。据微软表示,BingAI是由ChatGPT-4提供支持的最先进、用户友好的语言模型之一。站长网2023-07-24 16:09:370000新春开工AIGC领域就业需求暴增 同比增长6倍
猎聘大数据研究院最新发布的《2024新春开工首周就业洞察报告》揭示了一个令人瞩目的趋势:随着人工智能与图形计算领域的新星OpenAISora的涌现,相关行业的就业需求呈现出了惊人的增长。根据猎聘大数据显示,与去年相比,AIGC领域相关职位数量增长了惊人的612.5%!更令人瞩目的是,这些职位的平均年薪高达44.37万元,吸引了大量求职者的目光。站长网2024-02-27 15:40:190000Langroid:专为大型语言模型设计的多智能体编程框架
Langroid是一个直观、轻量、可扩展和原则性的Python框架,用于轻松构建LLM(大型语言模型)驱动的应用程序。您可以设置智能体,为它们配备可选组件(LLM、向量存储和方法),分配任务,让它们通过交换消息共同解决问题。这种多智能体范式受到ActorFramework的启发。项目地址:https://github.com/langroid/langroid站长网2023-10-31 10:36:490000字节紧急发布了一个警示
近一周,资本市场再度刮起AI大模型热潮,“豆包概念股”迎来普遍上涨。对此,字节十分罕见地出面回应。12月19日晚,字节发布风险提示称,资本市场出现炒作“豆包概念股”现象,流传着众多夸大其词甚至是虚构的内容,涉及字节资本开支、数据中心花费、AI硬件、应用合作等多方面。“请投资者切勿轻信市场传言,以免遭受不必要的投资损失。”0000