清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
要点:
1、清华、浙大等中国顶尖学府提供了性能优异的GPT-4V开源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。
论文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。
BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
华为三折叠手机即将发布 余承东:研发历时5年
站长之家(ChinaZ.com)7月16日消息:昨晚,华为消费者业务CEO余承东与董宇辉共同主持了一场直播活动,期间不仅探讨了华为手机和研发相关话题,余承东还首次对外透露了华为下一代折叠屏手机的相关信息。他自豪地表示,这款产品是业界普遍认为难以实现的,但华为经过五年的研发,终于即将推出。站长网2024-07-16 08:53:400000抖音6种月入过万的书单号
各位村民好,我是村长。做书单号,一个月就可以赚好几万。这是大家在一些社群里看到的分享,都想去试试。于是拿起一本书就开始拍照片,发了好几百页,也没带出去几本书。今天村长就和大家一起来聊一聊,关于抖音书单号的六种做法。图源备注:图片由AI生成,图片授权服务商Midjourney01名言名句书单号这种不需要真人出镜,就是去网上翻找那些特别有教育、启蒙、共情的语句。站长网2023-11-08 09:11:540000文旅AIGC产品开发商“九号诶艾科技”获300万元种子轮融资
近日,初创公司“九号诶艾科技”宣布获得“海南康氏实业投资集团”的种子轮融资,旨在加速AIGC垂直产业的布局。据介绍,九号诶艾科技公司于2023年成立,团队专注于基于ChatGPT类大模型与prompt交互的AIGC文旅产品,深入文旅大场景进行应用落地,为用户提供智能旅行策划与本地生活推荐的“吃喝玩乐出游”智能个人秘书。站长网2023-07-24 18:14:430002马斯克将推出人工智能平台「TruthGPT」:最大限度地寻求真相
据FoxNews报道,亿万富翁埃隆·马斯克说,他将推出一个人工智能(AI)平台,他称之为「TruthGPT」,这显然是对OpenAI的流行聊天机器人ChatGPT的挑战。站长网2023-04-18 09:31:150000小米汽车推出锁单等待关怀活动:3个月以上将不定期收到小礼品
在近期的小米汽车APP更新中,一项名为“锁单等待关怀计划”的新政策引起了广大用户的关注。该政策明确规定,对于那些因车辆交付周期长而需要等待3个月以上的用户,小米汽车将不定期地送上精心准备的惊喜礼品,以此表达对用户耐心等待的感激与关怀。站长网2024-06-29 16:22:450000