浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V
站长网2023-10-08 14:07:230阅
要点:
LLaVA-1.5在11项基准测试实现了SOTA,使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。
LLaVA-1.5在多模态理解上超越GPT-4V,可对其形成有力竞争。
LLaVA-1.5采用最简单的架构和公开数据集,性能显著提升。
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优(SOTA)成绩,包括视觉问答、图像 caption等任务,展现出了强大的多模态理解能力。

论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的图像输入、更大规模的语言模型(13B参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。研究人员发现,与额外的大规模预训练相比,视觉指令微调对提高多模态能力更为关键。
值得一提的是,LLaVA-1.5采用了最简单的架构设计,只需要在公开可取得的6百万图像文本配对上训练一个全连接层,就能在多项基准测试中打败复杂的SOTA系统,刷新记录。使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。LLaVA-1.5展示了开源大模型可以通过简单的设计和公共数据取得竞争力,为未来的研究提供了有价值的经验。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
0000
评论列表
共(0)条相关推荐
小鹏G6正式发布 售价20.99万元起
小鹏G6于2023年6月29日正式上市,580长续航版Pro——20.99万元、580长续航版Max——22.99万元、755超长续航版Pro——23.49万元、755超长续航版Max——25.49万元、700四驱性能版Max——27.69万元,提供熔云橙、新月银、星雨青、光子蓝、星阙灰、星云白六种配色可选。站长网2023-06-30 19:48:470000AI修改肖像模型DiffAE :可随意改变性别、年龄、表情、妆发等
文章概要:DiffAE是一种图像到图像的模型,用于修改肖像图像。它可以改变人们的性别、年龄、表情、配饰或头发,使图像看起来不同于原始图像。DiffAE模型的工作原理涉及两个主要部分:语义编码器和条件去噪扩散隐式模型(DDIM)。语义编码器负责捕捉图像的高级抽象特征,而条件DDIM则负责捕捉图像的微小变化。站长网2023-09-18 11:06:440000钉钉个人版正式全量上线 新增鹿班相机、灵动人像等多款 AI 工具
钉钉个人版已正式全量上线,推出多款AI工具,包括AI写真、涂鸦作画、法律助手等。用户可以通过钉钉个人版进行版本切换,使用AI工具进行个性化服务。钉钉个人版在内测期间已经进行了多次更新,新增了鹿班相机、灵动人像等多款AI工具,为用户提供AI写真、数字分身、AI作画、AI律师等服务。此外,个人版还支持类Siri的悬浮语音交互,用户可以通过语音与AI工具进行交互。站长网2024-01-04 14:17:510000小米回应SU7保费比玛莎拉蒂更贵:定价符合市场整体水平
站长之家(ChinaZ.com)5月21日消息:近日,一个关于小米SU7与玛莎拉蒂Grecale保费对比的话题引发了广泛讨论。据报道,售价仅为20万元左右的小米SU7年保费高达6千至8千元,而指导价为65.08万至101.88万元的玛莎拉蒂Grecale基础版首年保费却仅为6000元左右。这一巨大的保费差异,让不少消费者感到困惑。站长网2024-05-21 10:53:170000“人工智能驱动”广告在 Instagram 上引发创作者版权争议
在AI技术快速发展的当下,一则由安德玛(UnderArmour)发布的新广告在业内引发了热烈讨论。该广告由导演韦斯·沃克执导,声称运用了多种AI技术,包括AI视频、AI照片、3D动画等,被宣传为"首个由AI驱动的体育广告"。站长网2024-03-15 09:33:040001