清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
要点:
1、清华、浙大等中国顶尖学府提供了性能优异的GPT-4V开源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。

论文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。
BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
尽管艺术家明确拒绝,作品仍被用于训练开源人工智能模型
本文要点:1.艺术家GregRutkowski明确表示不希望他的作品出现在人工智能中,但仍有一个基于他的作品的AI图像生成器出现。2.AI生成器开发者表示愿意删除该模型,但无法阻止未来类似的开源机器人的创建。3.艺术家认为人工智能可能威胁到整个行业,使人类艺术家面临被淘汰的风险。站长网2023-08-04 15:18:210000Google DeepMind 新 AI 算法 Student of Games 能在多种棋盘游戏取得胜利
在最新的《自然》杂志上发表的一篇论文中,研究人员展示了一种名为「游戏学习者」(StudentofGames)的新算法,这一人工智能(AI)程序结合了引导式搜索、机器学习和博弈论,成功在多种棋盘游戏中取得胜利。这一成就标志着AI技术在策略游戏领域的又一重大进步。站长网2023-11-24 17:26:310000点评微信更新的9个功能
各位村民好,我是村长。以前微信每一次的改版都挺引发期待的,比如上线了红包、小程序、群聊免打扰、朋友圈折叠等。但是现在微信的每一次改版,都让人有种无奈和失望感,感觉微信越改越变成了一个大杂烩,逐渐抖音化、小红书、百度化。今天我们来简单盘点下,微信最近一些小功能的更新带来的影响。01公众号广告互选是鸡肋0000京东:快递小哥中三年收入超百万的已达近百人
今日,京东官方发文称,京东物流为员工提供了全员“五险一金”以及多项福利政策,使得京东员工在退休后能够享受有保障的生活。近年来,不少京东快递、客服、仓储、车队等基层一线员工退休,他们每月领取养老金,过上了有保障的退休生活。京东快递小哥中,有近百人的三年收入超过百万元,甚至在广东潮汕地区有小哥的三年收入超过200万元。站长网2024-01-18 10:13:310000马斯克回应特斯拉全球轮番降价 称预计车辆成本将持续降低
特斯拉最近发布了2023年第一季度财报,显示该季度营收为233.29亿美元,同比增长24%,市场预期为232.08亿美元。然而,第一季度净利润为25.13亿美元,同比下降24%,市场预期为27.25亿美元。此外,第一季度毛利率为19.3%,市场预期为21.2%。在电话会议上,特斯拉CEO马斯克表示,特斯拉的订单量已超过产量,因此现在是在更多全球市场销售汽车的好时机,最好以更低的价格大量发货。站长网2023-04-20 08:34:350001