挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B
站长网2023-10-10 14:26:290阅
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。
试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
0000
评论列表
共(0)条相关推荐
AutoAgents:基于LLM的自动代理生成框架
AutoAgents是一个创新性的框架,旨在通过GPT生成不同的角色,以形成协作实体,用于处理复杂任务。无需手动编写规则或代理,AutoAgents利用LLM的能力,可以根据您设定的目标生成多个专家角色代理,这些代理可以协同工作,执行复杂任务,无论是信息搜索、问题解答还是其他各种应用。项目地址:https://github.com/LinkSoul-AI/AutoAgents站长网2023-10-07 11:15:400000Reddit IPO文件曝光,OpenAI的Sam Altman被列为重要股东
**划重点:**1.🤝OpenAI首席执行官SamAltman持有Reddit8.7%的股份,成为最大股东之一。2.💼Altman与Reddit有深厚渊源,曾在YCombinator加速器同窗,并曾担任Reddit临时首席执行官。3.📈Reddit计划通过与人工智能公司的数据许可协议扩大业务,并与谷歌达成人工智能培训协议。站长网2024-02-23 14:26:370000微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
划重点:⭐LongRoPE方法将LLM的上下文窗口扩展至2048k,无需架构变化复杂微调⭐通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能⭐实验结果表明LongRoPE成功将LLM上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度站长网2024-04-29 17:14:560000理想汽车无人驾驶副驾驶坐着孩子 客服回应:坚决杜绝该操作
快科技5月6日消息,搭载了高阶智能驾驶辅助系统的车辆越来越多,作死的用户也屡见不鲜。近日有博主发布一段视频,一辆理想汽车驾驶员离开驾驶座,让汽车在无人驾驶”状态下自动行驶,副驾驶有一名儿童,且未系安全带,道路前方有其他车辆在行驶。为了诱骗车辆的验证系统,司机还把安全带插扣扣了上去,自己则在后排拍摄无人驾驶”视频。站长网2024-05-06 18:50:070001人类还在怕鬼,AI已经开始害怕自己了。
昨天中元节,我本来一直打算做一个关于中式恐怖的视频,来呼应一下这个节日氛围。带着这个想法,我开始在网上搜寻灵感。然而,我在B站上看到的一个视频彻底改变了我的计划。这个视频,是这样的,来自B站UP主@明天的心声-,名字叫做:《随手拍的一张医院走廊的照片让ai走出去,结果ai最终迷失在了自己创造的空间里》。本来,我以为这只是又一个普通的AI生成视频。但是。。。越看身上越凉。。。站长网2024-08-19 14:21:440000