首页站长资讯挑战GPT-4V！清华唐杰&智谱开源国产多模态模型CogVLM-17B

挑战GPT-4V！清华唐杰&智谱开源国产多模态模型CogVLM-17B

站长网2023-10-10 14:26:290阅

清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型，具有卓越的性能。该模型不仅可以识别图像中的对象，还能分辨完整可见和部分可见的物体。

CogVLM-17B已经在10项权威跨模态基准上取得了SOTA（State-of-the-Art）性能，并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”，展现了其多模态处理的出色能力。

试玩地址:

https://36.103.203.44:7861

开源及论文地址:

https://github.com/THUDM/CogVLM

CogVLM-17B采用了独特的深度融合方法，通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比，CogVLM-17B的深度融合方法提高了性能，同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。

CogVLM-17B在视觉问题解决方面表现出色，包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。

此外，它还展示了出色的文字识别能力，尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源，并提供了在线试玩，虽然目前仅支持英文，但计划在未来提供中英双语版本。

这款国产多模态模型的出现，不仅丰富了多模态领域的技术研究，还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变，为未来的研究和应用提供了新的思路和可能性。

挑战GPT4V 清华唐杰amp智谱开源国产多模态模型CogVLM17B

0000

评论列表

共(0)条

相关推荐

站长资讯
亚马逊 AWS 副总裁淡化人工智能存在威胁生成式 AI 不会一个模型统治市场
尽管科技界有一些知名人士担心人工智能(AI)带来的潜在生存威胁，但AWS产品副总裁MattWood并不是其中之一。Wood一直是AWS在机器学习（ML）领域的旗帜人物，并且是该公司活动中的重要角色。在过去的13年里，他一直是AWS关于AI/ML的主要发声人，在几乎每次AWSre:Invent活动中都会就技术、亚马逊的研究和服务进展发表演讲。
站长网2023-07-05 19:13:32
0000
站长资讯
微软 Windows 11 的 Bing AI 推出 Chrome 原生深色主题
据techgoing报道，微软为Windows11推出原生深色主题的BingAIChrome版本微软开始在GoogleChrome和AppleSafari浏览器上推出BingChat，并正在测试原生深色主题。据微软表示，BingAI是由ChatGPT-4提供支持的最先进、用户友好的语言模型之一。
站长网2023-07-24 16:09:37
0000
站长资讯
新春开工AIGC领域就业需求暴增同比增长6倍
猎聘大数据研究院最新发布的《2024新春开工首周就业洞察报告》揭示了一个令人瞩目的趋势:随着人工智能与图形计算领域的新星OpenAISora的涌现，相关行业的就业需求呈现出了惊人的增长。根据猎聘大数据显示，与去年相比，AIGC领域相关职位数量增长了惊人的612.5%!更令人瞩目的是，这些职位的平均年薪高达44.37万元，吸引了大量求职者的目光。
站长网2024-02-27 15:40:19
0000
站长资讯
Langroid：专为大型语言模型设计的多智能体编程框架
Langroid是一个直观、轻量、可扩展和原则性的Python框架，用于轻松构建LLM（大型语言模型）驱动的应用程序。您可以设置智能体，为它们配备可选组件(LLM、向量存储和方法)，分配任务，让它们通过交换消息共同解决问题。这种多智能体范式受到ActorFramework的启发。项目地址:https://github.com/langroid/langroid
站长网2023-10-31 10:36:49
0000
字节紧急发布了一个警示
近一周，资本市场再度刮起AI大模型热潮，“豆包概念股”迎来普遍上涨。对此，字节十分罕见地出面回应。12月19日晚，字节发布风险提示称，资本市场出现炒作“豆包概念股”现象，流传着众多夸大其词甚至是虚构的内容，涉及字节资本开支、数据中心花费、AI硬件、应用合作等多方面。“请投资者切勿轻信市场传言，以免遭受不必要的投资损失。”
站长网站长资讯2024-12-20 09:01:18
0000