国产开源MoE指标炸裂:GPT-4级别能力,API价格仅百分之一
最新国产开源MoE大模型,刚刚亮相就火了。
DeepSeek-V2性能达GPT-4级别,但开源、可免费商用、API价格仅为GPT-4-Turbo的百分之一。
因此一经发布,立马引发不小讨论。
![](https://i.zz5.net/images/article/2024/05/08/071507397.jpg)
从公布的性能指标来看,DeepSeek-V2的中文综合能力超越一众开源模型,并和GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。
英文综合能力也和LLaMA3-70B同处第一梯队,并且超过了同是MoE的Mixtral8x22B。
在知识、数学、推理、编程等方面也表现出不错性能。并支持128K上下文。
![](https://i.zz5.net/images/article/2024/05/08/071507428.jpg)
这些能力,普通用户都能直接免费使用。现在内测已开启,注册后立马就能体验。
![](https://i.zz5.net/images/article/2024/05/08/071507444.jpg)
API更是是骨折价:每百万tokens输入1元、输出2元(32K上下文)。价格仅为GPT-4-Turbo的近百分之一。
同时在模型架构也进行创新,采用了自研的MLA(Multi-head Latent Attention)和Sparse结构,可大幅减少模型计算量、推理显存。
网友感叹:DeepSeek总是给人带来惊喜!
![](https://i.zz5.net/images/article/2024/05/08/071507460.jpg)
具体效果如何,我们已抢先体验!
实测一下
目前V2内测版可以体验通用对话和代码助手。
![](https://i.zz5.net/images/article/2024/05/08/071507475.png)
在通用对话中可以测试大模型的逻辑、知识、生成、数学等能力。
比如可以要求它模仿《甄嬛传》的文风写口红种草文案。
![](https://i.zz5.net/images/article/2024/05/08/071507522.jpg)
还可以通俗解释什么是量子纠缠。
![](https://i.zz5.net/images/article/2024/05/08/071507553.jpg)
数学方面,能回答高数微积分问题,比如:
使用微积分证明自然对数的底e 的无穷级数表示。
![](https://i.zz5.net/images/article/2024/05/08/071507584.jpg)
也能规避掉一些语言逻辑陷阱。
![](https://i.zz5.net/images/article/2024/05/08/071507636.jpg)
测试显示,DeepSeek-V2的知识内容更新到2023年。
![](https://i.zz5.net/images/article/2024/05/08/071507647.jpg)
代码方面,内测页面显示是使用DeepSeek-Coder-33B回答问题。
在生成较简单代码上,实测几次都没有出错。
![](https://i.zz5.net/images/article/2024/05/08/071507678.jpg)
也能针对给出的代码做出解释和分析。
![](https://i.zz5.net/images/article/2024/05/08/071507710.jpg)
![](https://i.zz5.net/images/article/2024/05/08/071507741.jpg)
不过测试中也有回答错误的情况。
如下逻辑题目,DeepSeek-V2在计算过程中,错误将一支蜡烛从两端同时点燃、燃烧完的时间,计算成了从一端点燃烧完的四分之一。
![](https://i.zz5.net/images/article/2024/05/08/071507756.jpg)
带来哪些升级?
据官方介绍,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力。
![](https://i.zz5.net/images/article/2024/05/08/071507788.jpg)
和此前的DeepSeek67B相比,它的性能更强,同时训练成本更低,可节省42.5%训练成本,减少93.3%的KV缓存,最大吞吐量提高到5.76倍。
官方表示这意味着DeepSeek-V2消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。
专门针对H800规格做了大量通讯优化,实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。
![](https://i.zz5.net/images/article/2024/05/08/071507819.jpg)
在一些基础Benchmark上,DeepSeek-V2基础模型表现如下:
![](https://i.zz5.net/images/article/2024/05/08/071507835.jpg)
DeepSeek-V2采用了创新的架构。
提出MLA(Multi-head Latent Attention)架构,大幅减少计算量和推理显存。
同时自研了Sparse结构,使其计算量进一步降低。
![](https://i.zz5.net/images/article/2024/05/08/071507866.jpg)
有人就表示,这些升级对于数据中心大型计算可能非常有帮助。
![](https://i.zz5.net/images/article/2024/05/08/071507897.jpg)
而且在API定价上,DeepSeek-V2几乎低于市面上所有明星大模型。
![](https://i.zz5.net/images/article/2024/05/08/071507913.jpg)
团队表示,DeepSeek-V2模型和论文也将完全开源。模型权重、技术报告都给出。
现在登录DeepSeek API开放平台,注册即赠送1000万输入/500万输出Tokens。普通试玩则完全免费。
感兴趣的童鞋,可以来薅羊毛了~
体验地址:
https://chat.deepseek.com
API平台:
platform.deepseek.com
GitHub:
https://github.com/deepseek-ai/DeepSeek-V2?tab=readme-ov-file
—完—
1400元一次,爆改风吹到普通女孩身上,郭敬明的新一轮变现开始了
郭敬明又拿捏住了年轻人。十年前,他用文字吸引了大批粉丝;十年后,他又用审美抓住了流量。今年年初,郭敬明在上海开了一间妆造店“SHISPACE舍作”。尽管人均消费1400,但开业不到三个月迅速火成上海美容热门榜No.1。有句话叫:你可以嘲笑郭敬明的剧本,但你不能质疑他的审美。别看郭敬明拍过的剧评分都不算高,但他的剧总能出圈,审美始终在线。站长网2024-05-17 18:00:110000谷歌提出生成式图像动力学:让静态图片动起来
谷歌团队最新提出「生成图像动力学」,这项研究提出了一种基于图像空间的场景动力学先验模型。该模型可以将单张静态图片转换成无缝循环视频,或者用于与图片中的对象进行交互。项目地址:https://generative-dynamics.github.io/#demo站长网2023-09-18 10:30:490000Canalys报告:今年AI手机出货占比16% 2028年出货量将达54%
市场分析机构Canalys近日发布的《AI智能手机的现在与未来》报告揭示了生成式AI功能整合到智能手机中的变革潜力,预示着移动通信行业即将进入一个新时代。站长网2024-05-30 19:46:240000百度发布AI重构后的新文库 支持理解资料、PPT智能生成等能力
今日,百度创始人、董事长兼首席执行官李彦宏还在世界大会上展示了经过AI重构的新如流、百度文库、百度网盘等产品。据悉,智能办公平台新如流具备群聊消息“1000条消息,一秒划重点”、一键差旅、资料生成等功能,成为办公人士的超级助理,让“智能工作”代替“勤奋工作”。而基于大模型重构的百度文库从“内容工具”变身“生产力工具”。它在理解资料、撰写文章、PPT智能生成、风格切换等功能上快速进化。站长网2023-10-18 11:43:030000OpenAI首席执行官奥特曼称人类级别的AI即将出现
站长之家(ChinaZ.com)1月17日消息:近日,在瑞士达沃斯世界经济论坛上,OpenAI首席执行官萨姆·奥特曼表示,对于人工智能有一天将变得非常强大,对世界产生巨大重塑和破坏的担忧是夸大其词的。站长网2024-01-17 10:56:440000