浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V
站长网2023-10-08 14:07:230阅
要点:
LLaVA-1.5在11项基准测试实现了SOTA,使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。
LLaVA-1.5在多模态理解上超越GPT-4V,可对其形成有力竞争。
LLaVA-1.5采用最简单的架构和公开数据集,性能显著提升。
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优(SOTA)成绩,包括视觉问答、图像 caption等任务,展现出了强大的多模态理解能力。
论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的图像输入、更大规模的语言模型(13B参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。研究人员发现,与额外的大规模预训练相比,视觉指令微调对提高多模态能力更为关键。
值得一提的是,LLaVA-1.5采用了最简单的架构设计,只需要在公开可取得的6百万图像文本配对上训练一个全连接层,就能在多项基准测试中打败复杂的SOTA系统,刷新记录。使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。LLaVA-1.5展示了开源大模型可以通过简单的设计和公共数据取得竞争力,为未来的研究提供了有价值的经验。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
0000
评论列表
共(0)条相关推荐
苹果已收购Darwin AI 官方回应:常规投资行为
苹果公司今年早些时候在AI领域再下一城,成功收购了DarwinAI公司,进一步增强了其在人工智能领域的实力。DarwinAI是一家总部位于加拿大安大略省Waterloo的初创公司,自2017年成立以来,一直专注于两大核心技术的研发:一是利用AI技术检查制造过程中的零部件,二是通过机器学习构建更小、更高效的AI系统。站长网2024-03-15 08:41:450000中公教育:ChatGPT相关产品与服务的研究正在进行
近日,中公教育在接受调研时表示,公司高度重视ChatGPT的相关研究,尤其是在教育等相关垂直领域的应用,目前相关产品与服务的研究正在进行。中公公司强调,高度关注AI等前沿技术的发展和应用,并密切关注AI技术对教育的深远影响。为此,中公成立了人工智能与教育研究院,并结合业务开展情况积极布局,希望引领AI在职业教育和就业服务领域的技术应用和创新探索。站长网2023-05-15 09:31:210000科学家发现,AI聊天机器人只在你认为它有用时才有用
文章概要:-MIT研究人员发现,被“预设”期待某种AI体验的受试者几乎总是获得那种体验。-研究表明,聊天机器人引人注目的能力可能源自用户将期望投射到系统上。-研究人员认为整个文化对AI的看法可能影响技术的使用和发展。站长网2023-10-11 18:15:570000B站宣布2023年度报告正式上线
B站宣布,2023年度报告正式上线,用户可以上B站搜索“年度报告”解锁。这份报告详细统计了用户在2023年的观看时间、观看视频的类型占比、反复观看最多的视频、最关心的UP主/主播以及最多观看的影视剧等信息,让用户全面了解自己的B站观看历程。站长网2023-12-28 16:57:260000掰开安卓手机,满屏都是三个字:大模型丨模力时代
这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎么回事?究其原因,还是智能终端已经成为了各类AIGC应用的落地“新滩头”。站长网2023-11-16 17:51:450000