深度求索开源多模态大模型DeepSeek-VL系列
站长网2024-03-13 09:45:021阅
3月11日,DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列,分为1.3b 和7b 两种规模,共有4个版本。它具有融合语言和视觉能力,可以在不损失语言理解能力的情况下处理多模态任务,识别高分辨率图像中的细小物体。这个模型结合了视觉和语言信息,通过预训练微调的方法,在种领域中展现出很好的性能。
在数据构建阶段,DeepSeek VL 模型使用了多种不同领域的数据集,包括公开数据集如 ShareGPT4V、LAION-GPTV、LVIS-Instruct4V 等,以及纯文本数据集如 DeepSeek-LLM。
模型训练过程分为三个关键阶段:视觉 - 语言适配器训练、联合视觉 - 语言预训练和监督微调,以确保模型在不同任务和领域中的准确性和鲁棒性。
据悉,深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。

包括:
deepseek-vl-1.3b-chat:
https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-chat
deepseek-vl-7b-chat:
https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat
deepseek-vl-7b-base:
https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-base
deepseek-vl-1.3b-base:
https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-base
0001
评论列表
共(0)条相关推荐
奥特曼7万亿美元芯片帝国野心曝光,OpenAI日产1000亿单词欲接管全世界!
【新智元导读】SamAltman表示,自己需要7万亿美元建起全球的芯片帝国,他已经在全球搜罗金主,包括中东土豪。就在刚刚,SamAltman发推表示:如今,OpenAI每天能够创造出约1000亿字的内容,而全世界的人类每天总共能产生约100万亿字。此外,一个流传了数月的传言也在最近被证实:SamAltman官宣要搭建价值数万亿美元的AI芯片基础设施。站长网2024-02-11 13:18:280001采用3D打印技术,制备SiC陶瓷预制体,怎样增强SiC的致密性?
文|面包夹知识编辑|面包夹知识«——【·前言·】——»SiC陶瓷作为一种重要的功能材料,在航空航天、能源、电子等领域具有广泛的应用前景。其出色的力学性能、高温稳定性和耐腐蚀性使得SiC陶瓷成为许多极端环境下的理想选择。站长网2023-05-23 10:17:380007三只羊法务离职 本人回应:与公司之间没有任何矛盾
站长之家(ChinaZ.com)2月29日消息:近日,三只羊法务的李律宣布离职,这一消息迅速引发网友的广泛关注。在直播中,李律谈及离职原因时表示,自己的个人主页上已没有MCN的标识,确实已经离职,并且与公司之间并没有任何矛盾。他表示,过去的一年里,自己一直忙于思考如何销售货物,导致原本的法律工作接触减少,也缺乏足够的时间来充实自己。站长网2024-02-29 08:59:250000昆仑万维开源百亿级大语言模型「天工」Skywork-13B 系列
10月30日,昆仑万维宣布开源了百亿级大语言模型「天工」Skywork-13B系列,并提供了超大规模的高质量中文数据集。该系列包括两个模型:Skywork-13B-Base和Skywork-13B-Math,它们在多个评测和基准测试中都表现出了同等规模模型的最佳效果。此外,昆仑万维还开源了600GB、150BTokens的中文语料数据集。这是目前最大的开源中文数据集之一。站长网2023-10-30 13:57:470000单月涨粉300万,短剧“带飞”剧情号
剧情号达人正在靠短剧疯狂吸粉。新榜编辑部观察到,随着爽文式小程序短剧的爆红,越来越多剧情号达人玩起“短剧梗”,用“穿越”到短剧中的人物视角,还原普通人对离谱剧情的反应,把荒诞与现实的碰撞拍成了段子。比如,“七颗猩猩”近期更新了12集《重生之我在爽剧当演员》系列视频,演绎了保姆、助理等短剧配角的心理活动,其中6条视频获赞超百万。站长网2024-03-25 19:12:190000