幻方DeepSeek-V2系列模型已在魔搭社区开源
站长网2024-05-08 19:52:530阅
魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。
据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:
中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口
和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。
DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。
项目地址:
DeepSeek-V2-Chat:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat
DeepSeek-V2:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2
0000
评论列表
共(0)条相关推荐
iPhone 15出厂预装!iOS 17正式版今晚推送:19款老机型能升
快科技9月18日消息,按苹果的计划,今晚(19日凌晨)将开始推送iOS17正式版,届时老机型将抢先一步升级。从上周推送的iOS17RC版来看,目前系统完善度已经非常高,基本没有影响使用的bug,续航性能也都表现正常。甚至有部分网友反馈称,自己的iPhone升级之后比iOS16.6的续航更强了。站长网2023-09-18 17:36:110000如果4.9分餐厅欺骗了你
小迪和朋友在周末中午走进商场五楼,根据团购网站的推荐找到小吃快餐榜单排名第一的咖喱蛋包饭餐厅,网购了一张双人套餐券。这家餐厅以4.7的高分和第二名拉开0.4分的距离,在这座二线城市显得格外热门。0000比尔盖茨称AI或能让人每周工作3天 而不必工作5天
微软联合创始人比尔盖茨最近在一个节目中表达了他对AI的独特观点。他认为,AI技术的广泛应用可能最终导致人们每周只需工作三天,而不是现在的五天。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-11-23 10:31:410000比尔盖茨年度预测:2024 年将是「转折点」,聚焦于人工智能和气候变化
微软联合创始人、亿万富翁比尔·盖茨在周二发布的年度预测中表示,2024年将是一个「转折点」。在他的10页信件中,盖茨预期将看到人工智能的更多创新,婴儿营养不良的突破,气候变化谈判的进展以及世界各地的决定性选举。在2023年之前,盖茨预测世界可以在根除小儿麻痹症方面恢复失地,AI驱动的超声波可以帮助拯救母亲和婴儿,基因疗法可以帮助治疗艾滋病,更好的建筑可以对抗气候变化。0001A16Z发布:下一代皮克斯,AI 会如何融合电影和游戏?
故事是人类体验的核心——我们通过故事来理解世界、找到意义并与他人建立联系。在过去的一个世纪里,我们最喜爱的许多故事都是通过技术变革实现的。20世纪30年代,迪士尼发明了多平面摄像机,并率先制作了声音同步的全彩动画片——最终催生了开创性的动画电影《白雪公主和七个小矮人》。站长网2024-08-31 16:49:380000