中国团队开源大规模高质量图文数据集ShareGPT4V
要点:
中国团队开源大规模高质量图文数据集ShareGPT4V,基于GPT4-Vision构建,训练了一个7B模型,在多模态性能上超越同级模型。
ShareGPT4V数据集包含120万条图像-文本描述数据,涵盖世界知识、对象属性、空间关系、艺术评价等多方面,超越现有数据集在多样性和信息涵盖度方面。
使用ShareGPT4V数据集进行实验,研究者展示了其在多种架构和参数规模的多模态模型中的有效性,最终得到了在多模态基准测试上表现优异的ShareGPT4V-7B模型。
中国团队最近开源了一个引人瞩目的图文数据集,命名为ShareGPT4V,它基于GPT4-Vision构建,训练了一个7B模型。这一举措在多模态领域取得了显著的进展,超越了同级别的模型。
该数据集包含了120万条图像-文本描述数据,涵盖了世界知识、对象属性、空间关系、艺术评价等多个方面,在多样性和信息涵盖度上明显优于现有数据集。
论文地址:https://arxiv.org/abs/2311.12793
Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
多模态模型的性能在很大程度上受制于模态对齐的效果,而现有工作中缺乏大规模高质量的图像-文本数据。为了解决这一问题,中科大和上海AI Lab的研究者们推出了ShareGPT4V,这是一个开创性的大型图文数据集。
通过对GPT4-Vision模型产生的10万条图像-文本描述数据进行深入研究,他们成功构建了这一高质量的数据集,涉及的内容丰富多样,包括世界知识、艺术评价等。
这一数据集的推出为多模态研究和应用奠定了新的基石。在实验中,研究者们展示了ShareGPT4V数据集在多种架构和参数规模的多模态模型中的有效性。通过等量替换实验,他们成功提升了多种模型的性能。
最终,通过在预训练和有监督微调阶段同时使用ShareGPT4V数据集,他们得到了ShareGPT4V-7B模型,在多模态基准测试中取得了优异的成绩。
这一研究为未来的多模态研究和应用提供了有力支持,也促使多模态开源社区关注高质量图像描述的开发,预示着更强大、智能的多模态模型的出现。这一成果对于推动人工智能领域的发展具有积极的意义。
老干妈回应被辛巴称为是预制菜:是调味料 不归类于预制菜
站长之家(ChinaZ.com)1月23日消息:近日,网红辛巴在直播间就预制菜言论进行了回应,他表示自己是被断章取义。辛巴指出,老干妈、奶粉等国民品牌都是预制菜,并强调预制菜只是执行标准的问题。针对这一争议,贵阳南明老干妈风味食品有限责任公司工作人员回应称,他们的油制产品是调味料,并不归类于预制菜。同时,公司方面表示如涉及侵权老干妈名誉,也会进行维权。站长网2024-01-23 08:17:240000SceneTex: 生成高质量、风格一致的室内场景纹理的新型AI方法
划重点:1.🌐高质量3D内容合成是自动驾驶、机器人模拟、游戏、电影制作和未来虚拟/增强现实场景等多个应用领域的关键问题。2.🤖SceneTex采用深度到图像扩散先验,以在室内场景网格中生成高质量且风格一致的纹理,克服了传统方法中的多个问题。3.🚀研究团队使用多分辨率纹理和交叉注意力解码器,实现了全局样式一致性,提高了室内场景的纹理生成质量。站长网2023-12-04 10:09:300000天涯社区称资金流动困难 将直播七天七夜全力重启
近日,天涯社区发布了《关于近期暂停访问服务等情况的公告》称,自4月1日天涯社区发布公告暂停访问至今已近两个月,天涯社区确实遇到了资金流动性困难。站长网2023-05-29 08:22:200000抖音下场做网文,小玩家还是吃不饱
“参加恋综节目,嘉宾让我滚出去,我冷笑着掏出房产证,这节目租的别墅是我的。”一段小游戏录屏或是解压视频,搭配上网文经典情节的音频,就能在抖音获得20多万的点赞。评论区中,无数意犹未尽的读者留言:“在哪看后续?”站长网2023-04-12 15:33:300000对话梁建章:永生与繁衍后代二选一,你要怎么选?
携程在扶助、补贴生育上又向前迈进了一步。6月30日,携程集团宣布,推出针对全球员工的生育补贴政策。政策表示,2023年7月1日起,入职满3年的全球员工,不论性别,每新生育一个孩子,将获得每年一万元的现金补贴,发放至孩子满5周岁后终止。经初步测算,携程计划未来投入10亿元生育补贴,用于激励员工生育。站长网2023-07-02 18:04:330001