参数小,性能强!开源多模态模型—TinyGPT-V
安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。
TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型。
此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。
所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。
开源地址:https://github.com/DLYuanGod/TinyGPT-V
论文地址:https://arxiv.org/abs/2312.16862
TinyGPT-V主要架构
TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。
开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。
视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。
线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息。
TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。
第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。
TinyGPT-V训练流程
TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。
第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。
第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。
第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。
第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。
同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。
为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。
结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。
本文素材来源TinyGPT-V论文,如有侵权请联系删除
欧盟批准微软收购动视暴雪 但 Azure 云服务面临反垄断调查
欧盟行政机构欧洲委员会已批准微软公司以687亿美元收购动视暴雪公司的计划。今天早上公开了这一决定。此外,彭博社发布了一份报告,揭示欧盟正在对微软的公共云平台Azure进行非正式调查。人们认为,这个调查有可能升级为正式的反垄断调查。今年年初,微软宣布计划收购世界上最大的视频游戏开发商之一动视暴雪。随后,欧盟对这一交易展开了反垄断调查。去年11月,官员将调查扩大为所谓的第二阶段调查。0000李开复估值10亿美元的LLM创业公司推出开源模型Yi-34B
要点:中国计算机科学家李开复创办了01.AI,旨在为中国市场开发本土大型语言模型,以满足中国对开放AI的需求。01.AI在成立七个月后发布了其首个开源语言模型Yi-34B,拥有340亿参数,表现卓越,引起了广泛关注。01.AI计划建立商业模型,同时继续开源部分模型,以满足其高昂的AI模型开发成本,以及通过应用开发生态系统为外部开发者提供易于使用的平台。站长网2023-11-06 11:59:180000Stability AI发布SD3技术报告 披露SD3更多细节
StabilityAI最近发布了他们最强的图片生成模型StableDiffusion3(SD3)的技术报告,披露了SD3的更多细节。据StabilityAI所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。技术报告要点如下:站长网2024-03-05 18:42:200001Meta 的 Voicebox 生成式 AI 可以让任何人都能说多门外语
ChatGPT和Google的Bard等生成式人工智能使用自然语言处理和机器学习生成特定文本以响应提问。Meta的新生成人工智能Voicebox做事有点不同——生成任意音频。站长网2023-06-20 16:11:230000660 万年薪!OpenAI 工程师工资名列世界第一,2023 年上半年全球程序员收入报告出炉
近日,美国科技公司数据收集网站Levels.fyi发布了2023年上半年的全球程序员收入报告,并对各公司的薪酬进行了深入分析。报告中提及的总薪酬,包括工资、股票和奖金。(网站Levels.fyi成立于2017年,在全球1500多个城市拥有超过10万个数据点,数据相对权威和准确。)站长网2023-07-26 10:11:180001