19846

深度求索开源多模态大模型DeepSeek-VL系列

站长网2024-03-13 09:45:021阅

3月11日，DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列，分为1.3b 和7b 两种规模，共有4个版本。它具有融合语言和视觉能力，可以在不损失语言理解能力的情况下处理多模态任务，识别高分辨率图像中的细小物体。这个模型结合了视觉和语言信息，通过预训练微调的方法，在种领域中展现出很好的性能。

在数据构建阶段，DeepSeek VL 模型使用了多种不同领域的数据集，包括公开数据集如 ShareGPT4V、LAION-GPTV、LVIS-Instruct4V 等，以及纯文本数据集如 DeepSeek-LLM。

模型训练过程分为三个关键阶段:视觉 - 语言适配器训练、联合视觉 - 语言预训练和监督微调，以确保模型在不同任务和领域中的准确性和鲁棒性。

据悉，深度求索（DeepSeek），成立于2023年，专注于研究世界领先的通用人工智能底层模型与技术，挑战人工智能前沿性难题。

包括:

deepseek-vl-1.3b-chat:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-chat

deepseek-vl-7b-chat:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat

deepseek-vl-7b-base:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-base

deepseek-vl-1.3b-base:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-base

深度求索开源多模态大模型DeepSeekVL系列

0001

评论列表

共(0)条

相关推荐

站长资讯
Anthropic 的律师因 Claude 编造法律引文被迫道歉
据周四在加州北部法院提交的一份文件显示，Anthropic公司的一名律师在与音乐出版商的诉讼中，承认引用了该公司AI聊天机器人Claude虚构的法律引文。Anthropic在文件中称，Claude“凭空捏造了一个错误的标题和错误的作者”。据彭博社最早报道，Anthropic的律师解释说，他们的“人工引文核查”未能发现该错误，以及Claude编造的其他几个错误引用。
站长网2025-05-17 21:34:37
0000
年轻人沉迷的“猫鼠游戏”，养活了谁？
“我迷路了，手机也快没电了，能不能来这里找我。”就在大家一圈又一圈地搜寻最后一只“老鼠”的踪迹时，作为这场“猫鼠游戏”组织者的李刚，收到了这只“小老鼠”的“求救”信息。“猫鼠游戏变成了找人游戏。”李刚开玩笑道。而这只老鼠因为藏到了最后，成了鼠王MVP。什么是猫鼠游戏?可以简单理解为陌生人之间的大型躲猫猫。
站长网站长资讯2023-10-28 10:41:44
0000
站长资讯
美团无人机发布会明日召开将推出全套无人机配送解决方案
美团宣布，将于7月5日13:30举行美团无人机发布会，展示一款重磅新品，同时推出完整的无人机配送解决方案。这款无人机新品预计将在无人机配送领域带来创新和改变，为消费者提供更加高效、便捷的配送服务。
站长网2023-07-04 16:18:03
0002
站长资讯
电商平台探索新增量，店播、垂类、采销“百花齐放”
这是淘宝天猫的第15个双11，电商的发展已经从高增长时代进入新的竞争阶段。今年，低价一词几乎成为双11的关键词之一。从各大电商平台，到超头部主播，均试图通过价格力留住用户。面对低价竞争，平台竞争者是怎么想的?进入存量市场，电商平台在哪里挖掘新增量?有哪些新变化?电商盯上“品质低价”
站长网2023-11-16 13:54:53
0000
站长资讯
DeepSeek发布V2模型 GPT-4的性能白菜的价格
DeepSeek在开源MoE（MixtureofExperts）模型领域取得了重要进展，继今年1月份开源国内首个MoE模型后，现在发布了第二代MoE模型:DeepSeek-V2。这一新模型在多项性能评测中均展现出色的表现，与GPT-4等闭源模型竞争，同时在成本效益上具有显著优势。模型权重下载:https://top.aibase.com/tool/deepseek-v2-chat
站长网2024-05-07 16:55:39
0000