幻方DeepSeek-V2系列模型已在魔搭社区开源
站长网2024-05-08 19:52:530阅
魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。
据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。
性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:
中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口
和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。
DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。
项目地址:
DeepSeek-V2-Chat:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat
DeepSeek-V2:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2
0000
评论列表
共(0)条相关推荐
华尔街没有AI革命,最赚钱的地方为何却最“落后”?
眼下,从建筑业到娱乐业,几乎每个行业都希望抓住生成式人工智能(AI)的风口,从这项新兴技术中获利。但讽刺的是,一个最赚钱的地方却找不到AI革命,它就是华尔街。很长时间以来,华尔街一直在使用自动化算法来完成交易和风险管理等任务。但是,投资者一直无法依靠AI来解决他们最大的挑战:跑赢大盘。虽然有些人将ChatGPT视为促进销售和研究工作的一种途径,但使用AI的投资结果并不是特别尽人意。站长网2023-04-13 16:24:070001人工智能之父Geoffrey Hinton 警告科技发展难预知 AI 可能会取代人类
据国外媒体报道,被称为“人工智能之父”的杰弗里·辛顿最近在接受《60分钟》采访时警告,人工智能的快速发展存在巨大隐忧,科技有可能在某个时间点超越并最终取代人类。辛顿表示,人工智能可能在5年内就能比人类进行更好的推理。他担心人类是否能充分理解这个飞速发展的技术。一旦事情变得极为复杂,人类对技术内部运行机制的理解就会很有限,正如人类无法完全洞悉大脑的神秘运作。站长网2023-10-10 15:02:100000DragGAN:一个新的AI图片编辑神器 拖拽就能精准P图
最近,一个名为DragGAN的AI图片编辑工具爆火,它实现了点击鼠标、拖动关键点就能达到Photoshop的效果。对比之下,使用Photoshop等工具时候,需要具备相对专业的技能才能灵活,精确地控制单个对象的位置,形状,表达或排列。站长网2023-05-22 10:19:170000俄罗斯储蓄银行发布 GigaChat 抗衡 ChatGPT:能对话、写代码和生成图像
俄罗斯储蓄银行周一表示,它已经发布了名为GigaChat的技术,作为ChatGPT的竞争对手,加入了人工智能聊天机器人的竞赛。GigaChat最初只能由受邀的人参与测试。图片截自GigaChat站长网2023-04-25 09:09:420000Anthropic发布Claude 3系列大模型 Claude 3 Sonnet官网是什么
站长之家(ChinaZ.com)3月5日消息:今日,人工智能创业公司Anthropic宣布推出其最新大型语言模型(LLM)Claude3系列,该系列模型在各种认知任务上设立了新的性能标杆。这一突破性系列包括Claude3Haiku、Claude3Sonnet和Claude3Opus三个子模型,它们为用户提供了不同层次的智能、速度和成本选择,以满足多样化的AI应用需求。站长网2024-03-05 13:17:320000