幻方DeepSeek-V2系列模型已在魔搭社区开源

站长网2024-05-08 19:52:530阅

魔搭ModelScope社区宣布，DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉，幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2，并开源了技术报告和模型权重，该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE，以236B 总参数、21B 激活，实际部署在8卡 H800机器上，输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

性能方面，在目前大模型主流榜单中，DeepSeek-V2均表现出色:

中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队

英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral8x22B

知识、数学、推理、编程等榜单结果也位居前列

支持128K上下文窗口

和DeepSeek67B相比，DeepSeek-V2节约了42.5%训练成本，推理的KV Cache节约了93.3%，最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源，用户可以通过该平台直接下载模型。

项目地址：

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

幻方DeepSeekV2系列模型已在魔搭社区开源

0000

评论列表

共(0)条

相关推荐

站长资讯
iPhone 15出厂预装！iOS 17正式版今晚推送：19款老机型能升
快科技9月18日消息，按苹果的计划，今晚（19日凌晨）将开始推送iOS17正式版，届时老机型将抢先一步升级。从上周推送的iOS17RC版来看，目前系统完善度已经非常高，基本没有影响使用的bug，续航性能也都表现正常。甚至有部分网友反馈称，自己的iPhone升级之后比iOS16.6的续航更强了。
站长网2023-09-18 17:36:11
0000
如果4.9分餐厅欺骗了你
小迪和朋友在周末中午走进商场五楼，根据团购网站的推荐找到小吃快餐榜单排名第一的咖喱蛋包饭餐厅，网购了一张双人套餐券。这家餐厅以4.7的高分和第二名拉开0.4分的距离，在这座二线城市显得格外热门。
站长网站长资讯2023-12-26 15:27:27
0000
站长资讯
比尔盖茨称AI或能让人每周工作3天而不必工作5天
微软联合创始人比尔盖茨最近在一个节目中表达了他对AI的独特观点。他认为，AI技术的广泛应用可能最终导致人们每周只需工作三天，而不是现在的五天。图源备注：图片由AI生成，图片授权服务商Midjourney
站长网2023-11-23 10:31:41
0000
比尔盖茨年度预测：2024 年将是「转折点」，聚焦于人工智能和气候变化
微软联合创始人、亿万富翁比尔·盖茨在周二发布的年度预测中表示，2024年将是一个「转折点」。在他的10页信件中，盖茨预期将看到人工智能的更多创新，婴儿营养不良的突破，气候变化谈判的进展以及世界各地的决定性选举。在2023年之前，盖茨预测世界可以在根除小儿麻痹症方面恢复失地，AI驱动的超声波可以帮助拯救母亲和婴儿，基因疗法可以帮助治疗艾滋病，更好的建筑可以对抗气候变化。
站长网站长资讯2023-12-20 09:04:05
0001
站长资讯
A16Z发布：下一代皮克斯，AI 会如何融合电影和游戏？
故事是人类体验的核心——我们通过故事来理解世界、找到意义并与他人建立联系。在过去的一个世纪里，我们最喜爱的许多故事都是通过技术变革实现的。20世纪30年代，迪士尼发明了多平面摄像机，并率先制作了声音同步的全彩动画片——最终催生了开创性的动画电影《白雪公主和七个小矮人》。
站长网2024-08-31 16:49:38
0000