浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V
站长网2023-10-08 14:07:230阅
要点:
LLaVA-1.5在11项基准测试实现了SOTA,使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。
LLaVA-1.5在多模态理解上超越GPT-4V,可对其形成有力竞争。
LLaVA-1.5采用最简单的架构和公开数据集,性能显著提升。
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优(SOTA)成绩,包括视觉问答、图像 caption等任务,展现出了强大的多模态理解能力。

论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的图像输入、更大规模的语言模型(13B参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。研究人员发现,与额外的大规模预训练相比,视觉指令微调对提高多模态能力更为关键。
值得一提的是,LLaVA-1.5采用了最简单的架构设计,只需要在公开可取得的6百万图像文本配对上训练一个全连接层,就能在多项基准测试中打败复杂的SOTA系统,刷新记录。使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。LLaVA-1.5展示了开源大模型可以通过简单的设计和公共数据取得竞争力,为未来的研究提供了有价值的经验。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
0000
评论列表
共(0)条相关推荐
AI日报:阿里又推王炸级对口型项目EchoMimic;三星推Galaxy Ring智能戒指;高保真3D头像生成模型RodinHD
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、AI对口型项目EchoMimic:音频角色照片生成生动配嘴型视频站长网2024-07-11 15:42:240002DeepMind发布自监督扩散模型SODA
GoogleDeepMind昨天发布的一项研究展示了一项引人注目的技术,尽管其中的技术细节可能需要深入理解,但总体来说,通过一系列操作,可以以无监督的方式精准控制扩散模型,从而实现风格和内容的分离,以及合成物品的3D视图等功能。论文地址:https://soda-diffusion.github.io/站长网2023-12-01 12:16:310000AI安全辩论:Sam Altman剑桥演讲遭抵制、Llama 2被曝存在潜在风险
要点:1.SamAltman在剑桥活动中遭到抵制,引发全球AI安全讨论升级,包括联名信呼吁对人工智能制定国际条约。2.MIT的研究指出,开源的Llama2存在潜在风险,可能被滥用以获取危险知识,呼吁采取法律行动限制模型权重公开。3.AI巨头分为「开源派」和「毁灭派」,各持己见,一方要求更加开放,另一方主张制定条约以防止AI灭绝人类,引发激烈辩论。站长网2023-11-02 14:10:450000新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类
划重点🔍-以用户定义的条件为基础,如文本和姿势,实现超逼真人体图像生成。-引入结构扩散模型(DMs),成为生成AI中的主导架构。-跳出困扰先前模型的问题,HyperHuman通过LatentStructuralDiffusionModel和Structure-GuidedRefiner实现高度逼真、多样化的人体图像生成。站长网2023-11-26 14:17:010003vivo X100入网 首发天玑9300或搭载卫星通信功能
根据3C认证信息的最新显示,vivoX100系列已经通过认证并具备120W有线快充功能。这款新机系列将首发天玑9300处理器。此外,vivoX100系列还将标配国产1.5k曲面屏,预计采用最新的京东方Q9基材,局部峰值亮度将突破1600nit。站长网2023-10-19 15:13:400000