清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
要点:
1、清华、浙大等中国顶尖学府提供了性能优异的GPT-4V开源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。
论文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。
BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
长安汽车竞价一字涨停 此前与华为成立新公司
长安汽车A股今日开盘一字涨停,报19.56元,最新市值1940亿元。此前,华为与长安汽车在深圳签署了《投资合作备忘录》,拟成立一家新公司,聚焦智能网联汽车的智能驾驶系统及增量部件的研发、生产、销售和服务。站长网2023-11-27 10:36:570000一年爆一城,地方文旅如何留住达人流量?
一条视频点赞百万,粉丝数超160万,直播在线观看10万;她带动怀化市超过2000万元现场消费,助力全市经济增长1.2亿元;她就是理发师晓华,靠着自己扎实的理发技术和“听得懂话”爆火,拥有百万粉丝的理发师@山城小栗旬更是在她的直播间直接当上榜一……网友评论:各行各业都需要“晓华”!站长网2024-11-21 07:29:380000Zoom 推出 Zoom IQ 功能:采用 OpenAI、Anthropic 等多个 AI 模型提升协作效率
视频会议软件Zoom日前推出了ZoomIQ的重要功能,这是一个智能助手,通过生成式人工智能提升协作能力,释放人们的潜力。现在,这些功能已通过免费试用提供给选择计划的客户。Zoom会议摘要和Zoom团队聊天撰写功能将帮助团队提高生产力,平衡工作日的优先事项,并更有效地协作。站长网2023-06-12 22:57:140000英国利用人工智能技术追踪野生动物取得突破
本文概要:1.研究人员使用人工智能技术成功识别出数十种鸟类和其他野生动物。2.人工智能监测器在测试地点捕获了数万个数据文件和数千小时的音频,识别和定位了各种动物。3.网络铁路公司拥有超过52,000公顷的土地,计划扩大人工智能监测器的应用范围,以帮助保护英国的生物多样性。英国伦敦动物学会(ZSL)与NetworkRail合作,利用人工智能技术开发了一种新的野生动物监测方法。站长网2023-08-14 12:02:330002备忘录显示 OpenAI 支持开发先进人工智能系统需要监管许可
据OpenAI起草的一份内部政策备忘录显示,该公司支持要求任何想要开发先进人工智能系统的人获得政府许可的想法。这份文件还表明,该公司愿意公开用于训练图像生成器的数据。站长网2023-07-21 16:46:470000