新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题
要点:
1、MoE-LLaVA是一种新型稀疏LVLM架构,使用路由算法仅激活top-k专家。
2、MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。
3、MoE-LLaVA采用三阶段的训练策略,以降低稀疏模型学习的难度。
MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型(LVLM)的扩大参数规模会增加训练和推理成本的问题。

项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
此外,MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。该架构采用三阶段的训练策略,以降低稀疏模型学习的难度,从而建立稀疏LVLMs的基准,为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。
论文提出了MoE-LLaVA的三阶段训练策略。第一阶段的目标是让视觉token适应到LLM,使LLM具备理解图片实体的能力。第二阶段的目标是用多模态的指令数据来微调,以提高大模型的能力和可控性。
第三阶段使用第二阶段的权重作为初始化以降低稀疏模型学习的难度。在模型构建中,MoE-LLaVA是第一个基于LVLM搭载soft router的稀疏模型。研究团队在5个图片问答benchmark上验证了MoE-LLaVA的性能,并报告了激活的参数量和图片分辨率。
为了验证MoE-LLaVA的多模态理解能力,研究在4个benchmark toolkit上评估了模型性能。结果显示,MoE-LLaVA可以用更少的激活参数达到和稠密模型相当甚至超过的性能。研究还采用POPE评估pipeline验证MoE-LLaVA的物体幻觉,结果表明MoE-LLaVA展现出最佳的性能,以较少的激活参数超过了LLaVA。
MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。
明年3月上市!小米SUV起售价曝光:可能23.59万元起
快科技11月29日消息,最新消息显示,小米第二款车型计划于明年2月或3月上市。据说,小米第二款新车的上市节奏将与SU7保持一致。而SU7是在2024年3月28日正式上市的。业界推测,这款车将直接对标特斯拉ModelY。值得一提的是,除了纯电SUV,小米还将推出一款增程式SUV。0000Stability AI发布DreamStudio开源版 命名为StableStudio
日前,StableDiffusion背后的公司StabilityAI宣布推出StableStudio,这是其DreamStudioAI文本到图像网络应用程序的开源版本,展示该公司致力于推进开源开发的决心。StabilityAI的开源方法提高了人们对其产品的兴趣,包括StableDiffusion和StableLM。站长网2023-05-18 10:26:500000一个抖音探店达人的自白:一个月最多赚10万,红利只有两三年
“最开始我完全是奔着吃去的,结果吃着吃着就赚钱了。”2021年11月,抖音探店达人“杭州宝藏哥”在接受职场大V“商业小纸条”采访时聊道。当时他刚做了2个多月的探店达人,粉丝3000多。期间,他的一条2万多播放的视频带来了超3万元流水,净赚3000多元。站长网2023-04-17 15:22:260000美国最大健康保险公司使用90%错误率的AI算法拒绝医疗赔付,遭到诉讼指控
#划重点1.美国最大的医疗保险公司UnitedHealthcare被指控使用一个存在90%错误率的AI算法,绕过医生的判断,错误地拒绝向年长患者提供关键医疗保障。站长网2023-11-17 15:04:110000美国政府拟出台新规定,要求对使用人工智能的算法进行评估和监管
划重点:-美国政府计划出台新规定,要求对在医疗保健、执法和住房领域使用的算法进行评估,以防止潜在的歧视或其他对人权产生不良影响。-新规定可能会迫使美国政府在AI方面采取改变,例如FBI使用的面部识别技术,该技术因未采取国会要求的措施以保护公民自由而受到批评。-新规定将要求政府机构在2024年8月之前评估现有算法,并停止使用不符合规定的算法。站长网2023-11-02 10:55:390001