微软开源多模态模型LLaVA-1.5媲美GPT-4V效果
划重点:
🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。
🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。
📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。
该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。
大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。
视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。
在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。
研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。
LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
项目GitHub入口:https://top.aibase.com/tool/llava
10秒,让OpenAI奥特曼为你的视频配音?80岁歌手靠此技术翻红互联网
谁能想到,2023年香港乐坛最火的一首歌,是80岁歌手尹光和AI唱的。这首《DearMyself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位,由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧,我把这个使命过继给AI”。值得一提的是,80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。2023年,“AI孙燕姿”在B站出道,曾一度让声音克隆变得十分热门。站长网2024-02-28 17:58:540000LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
【新智元导读】最近,来自澳国立、牛津和智源的研究人员提出了一个由LLM驱动,用文字提示就能生成复杂3D场景的智能体框架。无所不能的大模型真的要开始创造3D世界了吗?继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了!只要不到30个字的提示词,瞬间就能生成这样的3D场景。站长网2023-10-26 09:08:180000中端神机!Redmi Note系列全球销量突破3.38亿台
快科技9月21日消息,小米集团卢伟冰表示,RedmiNote系列全球销量突破3.38亿台,成为中端爆款。回顾RedmiNote系列进化史,Redmi将很多旗舰级的体验普及到了Note系列机型上。站长网2023-09-21 20:55:310000小鹏汽车发布全新品牌MONA 并推出小鹏AI天玑系统
在今日的盛大2024北京车展中,小鹏汽车携其全新品牌MONA惊艳亮相,引起了广泛关注。小鹏汽车董事长何小鹏更是信心满满,豪言MONA的销量有望超越小米的SU7。站长网2024-04-25 21:41:0300002024上半年,谁在小红书疯狂涨粉?| 年中观察
2024上半年,谁在小红书疯狂涨粉?最近,借助新榜旗下小红书数据工具新红,我调取了2024上半年在小红书涨粉最多的1000位博主。(数据说明:不统计媒体号、政务号、平台号,时间范围为2024.1.1-2024.6.30)数据显示,今年上半年,至少65位博主的小红书涨粉数超50万,其中,“春晚”“七颗猩猩”“肚肚小盆友”“爱肚肚的皮皮”“张天琪”“姜妍小红婶儿”的小红书涨粉数均超百万。站长网2024-07-11 16:59:550005