微软开源多模态模型LLaVA-1.5媲美GPT-4V效果
划重点:
🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。
🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。
📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。
该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。
大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。
视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。
在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。
研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。
LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
项目GitHub入口:https://top.aibase.com/tool/llava
与辉同行因没东西卖停播一天 董宇辉首场直播带货超1.5亿
站长之家(ChinaZ.com)1月12日消息:“与辉同行”公众号近日发文表示,将停播一天,原因是“没东西卖了”。据悉,1月9日晚上7点,“与辉同行”的首场直播准时开始,作为东方甄选为董宇辉全新开辟的账号,直播间开播不到1分钟在线人数迅速超过10万,开播20分钟就收获了2亿点赞,更成为抖音小时榜、人气榜双料冠军。站长网2024-01-12 10:25:300000AMD副总裁,搭载人工智能的电脑将很快理解用户需求
本文概要:-AMD副总裁JasonBanta表示,将人工智能整合到电脑中将使其更个性化、更安全,并更好地理解用户需求。-Banta预测到2024年将有更多搭载人工智能的笔记本电脑问世,而2025年将迎来“重大转折点”,届时人工智能将使电脑更个性化、更安全,并更好地理解用户需求。-预计从云端人工智能应用将转向在电脑上实时运行的小型模型,并可在本地进行训练。0000“科目三”摇出圈,海底捞为什么总能站上流量风口?
近日,海底捞凭借店员跳舞蹈“科目三”多次登上微博热搜,相关话题和视频内容在各大社交平台持续发酵。视频中,海底捞的店员们或羞涩或兴奋,有的还会掏出自备的墨镜戴上,紧接着便是一套扭胯、翻花手的“丝滑小连招”,部分海底捞店员还会和拍摄者握手、比心互动,场面非常欢乐。相关视频登上抖音热榜,多地海底捞店员争相表演“科目三”,还有明星朱梓骁加入挑战,舞蹈挑战“科目三”让海底捞再次借势出圈。00002分钟建模!AI框架GauHuman:实现高质量3D人体快速重建和实时渲染
**划重点:**-🌐南洋理工大学与商汤科技的S-Lab团队推出GauHuman,基于GaussianSplatting实现高质量3D人体快速重建和实时渲染。-⚡GauHuman在1~2分钟内完成建模,每秒渲染高达189帧,超越了现有方案,应用前景广泛,涵盖游戏、电影、虚拟现实等领域。站长网2024-01-11 10:00:200003刚刚!公众号能修改图片了!
盼星星盼月亮!终于盼到了公众号这项重大更新——文章支持修改图片了!(想省略操作过程演示的小伙伴,可以直接拉到最后看注意事项)今天,公众号后台弹窗显示“新增图片的修改”。具体来说,点击图片后,可删除或替换图片,最多支持3张图片内的修改。从公众号后台的文章修改入口进入,点击需要修改的图片,就会弹出“替换”和“修改”两个功能选项。站长网2023-08-15 16:57:570000