挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B
站长网2023-10-10 14:26:290阅
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。
试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
0000
评论列表
共(0)条相关推荐
客服回应小猿口算PK被大学生占领:将优化PK匹配机制
最近,一款主要面向小学生的口算练习应用"小猿口算"意外地在大学生群体中走红。这款应用原本是为了辅助小学生的数学学习,却因大学生的大量加入而成为热门话题。这些大学生在应用内与小学生进行口算比赛,他们的数学能力明显超出小学生,导致许多小学生感到困惑和沮丧。一些家长反映,他们的孩子因为无法匹敌大学生而感到难过,甚至有人建议应用应该设置一个防止成年人参与的模式。0000马斯克学微信做超级App,真叫一个不靠谱
而就在这个新闻爆出后没几天,12月21日,马斯克在SpaceX的一次活动上,与方舟投资总裁CathieWood对话时透露,X平台的支付服务Xpay将在明年年中推出。支付,虽然不起眼,但却是超级App最核心的一项功能,所有花里胡哨的操作,都要靠支付来跑通。一直嚷嚷着要做超级App的马斯克,貌似很认真。马斯克对超级App的阐述站长网2024-01-17 09:05:510000贾跃亭:早日回国是我最大梦想 还债之日就是回国之时
快科技4月25日消息,今天下午贾跃亭发布最新视频称:早日还债回国是自己的最大梦想,已偿还100多亿美金债务。造车成功并还债之日就是自己回国之时。以下是贾跃亭视频文字版:0000麦当劳将使用谷歌人工智能来确保你的薯条是新鲜的
站长之家(ChinaZ.com)12月7日消息:近日,麦当劳宣布将与谷歌合作,计划从2024年开始在数千家商店部署生成式人工智能。这一合作将包括硬件和软件的升级,涉及点餐亭和公司移动应用程序等其他系统的更新。站长网2023-12-07 11:48:400000微信被盗号怎么办:腾讯官方教程来了!
快科技8月22日消息,微信作为如今国民级平台,不仅仅只是社交工具,还有这支付等极为敏感的属性。如果被盗号了,用户可能会面临着隐私信息被泄露、资金被盗刷、好友被欺诈、账号被用于违法违规行为等风险。因此,大家更要警惕微信号被盗,近期就有不少人反馈出现过自己没任何操作,但微信号却被迫下线,并收到提醒称账号在不认识的设备上登录。站长网2024-08-22 22:07:220000