微软开源多模态模型LLaVA-1.5媲美GPT-4V效果
划重点:
🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。
🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。
📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。
大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。
视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。
在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。
研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。
LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
项目GitHub入口:https://top.aibase.com/tool/llava
1stAI Machine:由Runway支持的AI生成视频硬件设备
1stAIMachine是一台由RunwayML软件支持的AI生成视频的硬件设备,由SGX和1stAveMachine的团队在马德里制作。该设备是一个原型,源于一个未成功的汽车广告概念,旨在将故事板和概念草图转化为具有独特风格的AI生成视频。站长网2023-11-14 16:50:390000谷歌被指控窃取数百万用户数据训练人工智能工具
日前,谷歌面临一项广泛的侵权诉讼,指控这家科技巨头未经用户同意,窃取了数百万用户的数据,并违反版权法来训练和开发其人工智能产品。这起对谷歌、其母公司Alphabet和其人工智能子公司DeepMind的集体诉讼于周二在加利福尼亚州的联邦法院提起,由克拉克森律师事务所提出。该律所上个月曾对ChatGPT制造商OpenAI提起类似诉讼。站长网2023-07-12 17:26:030000AI一分钟演绎普通女孩的一生 抖音获赞353.8万
11月1日,抖音博主“Mae”投稿了一条视频《大多数普通女孩的一生》,将人类漫长的一生浓缩成短短一分钟。视频展示了一个女孩从出生、上学、工作、结婚、怀孕、生子、退休、衰老的生命历程。画面治愈温暖,触动了不少网友。截至目前,该条视频已获得353.8万点赞,23.8万网友评论,收藏转发数超264万。站长网2023-11-08 14:53:150000苹果Vision Pro国行版今日正式开启预售 售价 29999 元起
站长之家(ChinaZ.com)6月14日消息:今日,苹果VisionPro国行版正式开启预售,这款被苹果CEO库克预言将在未来10年取代iPhone地位的革新产品,起始售价为29999元。用户可在三种内存版本中自由选择,包括256GB、512GB和1TB,每位消费者限购两台。站长网2024-06-14 23:51:040000雷军:小米平板6S Pro与小米SU7连接超简单 可一插即用唤起车控界面
快科技2月20日消息,今日,@雷军发微博称小米平板6SPro与小米SU7连接超简单。对此他还配上一段视频,来展示平板与汽车相连的便捷。使用小米平板6SPro,放置在小米SU7座椅后背上,可实现一插即用、无感互联。放置好平板,就可自动连接上小米汽车的Wi-Fi,这时平板页面会自动显示为控车界面。站长网2024-02-20 20:26:540000