首页站长资讯秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用，背后公司来自私募巨头

秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用，背后公司来自私募巨头

站长网2023-12-06 18:12:261阅

国产大模型刚刚出了一位全新选手:

参数670亿的DeepSeek。

它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的Llama2。

并尤其以推理、数学和编码能力为突出。

其中在数学能力上，它测了Grok刚刚参与过的匈牙利今年最新的高中数学考试题，得了65分。

对比Grok当时公布的成绩:59分，以及GPT-4的68分，表现十分出色。

DeepSeek主打一个发布即开源:

共包含70亿和670亿两个参数版本，每个版本均含基础模型和指令微调模型，无需申请，即可免费商用。

同时，它已开放了全面内测，注册一下就能玩。

Ps. DeepSeek的中文能力在GPT-3.5之上，可以使用中文进行测试。

在推特上，DeepSeek也引起了一大批技术同行的关注:

早期测试过的人表示没毛病。

还有人赞誉DeepSeek弥补了开源LLM在数学和编码上的短板。

那么，DeepSeek是如何训练出来的?

与Llama架构相同

DeepSeek使用与Llama相同的架构，即自回归Transformer解码器架构。

其中70亿参数的版本使用多头注意力，670亿参数版本使用分组查询注意力。

预训练在包含2万亿个中英文token的数据集（序列长度4096）和AdamW优化器上进行。

其中70亿参数版本的模型的训练batch size为2304，学习率为4.2e-4;670亿参数版本的模型的batch size为4608，学习率为3.2e-4。

DeepSeek的训练过程中特别采用了多步学习率计划:

先从2000个预测步骤开始，然后在1.6万亿token时逐步达到最大值的31.6%，在1.8万亿token时逐步达到最大值的10%。

有网友看完表示:

这种从1.6万亿token时开启的学习率冷却阶段有点类似于“Scaling Vision Transformers”那篇论文中的lr计划消融操作。

这也与Llama的余弦学习率衰减（要求它们提前指定步数）完全不同，非常有趣。

下图是作者发布的DeepSeek训练损失曲线以及在几个基准上的曲线图:

数学和编码能力突出

我们重点关注DeepSeek进行的如下三大类测试结果。

一个是今年5月才发布的2023年匈牙利高中数学考试题。

尽管DeepSeek已经在GSM8k和MATH这两个标准基准上取得了不错的成绩:

但由于存在过度拟合这些数据集的风险，作者还是决定评估一下样本外的数学泛化能力。

如下图所示，位于右上角的670亿参数DeepSeek最终在样本内数学能力（纵轴GSM8K）排名第三，仅次于Claude2和GPT-4，但在样本外数学能力（横轴Exam Score）排名第二，仅次于GPT-4。

第二个是考验DeepSeek指令跟随能力的测试。

在此，作者使用了谷歌11月15日刚刚发布的指令跟随评测集，来评价模型的“听话程度”。

结果是领先一众开源模型，但59.1分的成绩与GPT-4还有20分的差距。

最后是代码能力测试。

同样，作者在这里重点关注了样本外能力，选择的是LeetCode今年7月2日到11月12日的最新真题进行测试。

结果是比国内常见的大模型都要好很多，并且也远远超越了GPT3.5。

背后公司是谁?

经搜索，DeepSeek背后的公司名叫深度求索。base位于北京，今年5月正式成立。

目标不止是大模型，而是AGI。

就在11月初，这家公司就发布代码大模型DeepSeek Coder。

与之前最好的开源大模型CodeLlama相比，DeepSeek Coder在代码生成任务上（使用标准数据集HumanEval、MBPP和DS-1000进行评测）分别领先了9.3%、10.8%和5.9%。

特别值得一提的是，深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。

幻方这家公司听起来和AI“八杆子打不着”，但实际上，2019年时，幻方就发布了自研深度学习训练平台“萤火一号”。

据称该项目总投资近2亿元，共搭载了1100块GPU。

后来“萤火一号”由升级为“二号”，搭载的GPU数则达到了约1万张。

0001

评论列表

共(0)条

相关推荐

站长资讯
研究显示 ChatGPT 提供的医疗保健回应与人类提供的建议几乎无法区分
根据《JMIR医学教育》杂志上发表的一项新研究，ChatGPT对与医疗保健相关的问题的回答很难与人类的回答区分开来。该研究由纽约大学的研究人员于今年1月进行，旨在评估使用ChatGPT或类似的大型语言模型来回答电子健康记录中提出的一长串问题的可行性。研究得出结论，使用像ChatGPT这样的大型语言模型可能是简化医疗保健提供者与患者沟通的有效方式。
站长网2023-07-19 07:57:39
0000
站长资讯
亿嘉和：GPT大模型可增强机器人沟通已搭建清洁AI+云平台
站长之家（ChinaZ.com）5月10日消息:机器人企业亿嘉和近日表示，公司致力于利用机器人和人工智能技术，为客户提供完整的智能化解决方案，解决客户重复性劳动、低效劳动和危险劳动的问题。在此方面，GPT大模型能够有效提升机器人与人之间的交流能力。公司正在积极开展相关技术的研究和探索，关注业内最新开源项目和主流厂家的进展，希望在适当的时候推出新的功能。
站长网2023-05-10 11:08:40
0004
站长资讯
美国AIGC独角兽Jasper宣布裁员估值15亿美元
据国外媒体报道，美国AIGC独角兽Jasper开始裁员了，这引发了一些业内人士的讽刺和疑问。Jasper是一家提供AI工具的公司，去年完成了1.25亿美元的融资，估值达到15亿美元。
站长网2023-07-14 17:24:43
0001
站长资讯
爱设计&AiPPT.cn完成B1轮融资视觉中国领投
近日，AIGC科技企业-爱设计&AiPPT.cn宣布完成B1轮融资。本轮融资由A股上市公司视觉中国领投，星连资本和36氪跟投。此前，「爱设计」曾先后获得来自心元资本，微梦传媒，视觉中国，信天创投，策源创投，亚杰基金及知名战投方投资。本轮融资将用于人工智能技术，内容版权供应体系，国内外用户增长和核心人才引入等方面。
站长网2024-06-03 19:25:18
0000
站长资讯
东南亚电商乱斗：TikTok一年翻4倍，Shopee和Lazada前二
时至今日，距离TikTokShop登顶东南亚电商市场，就只差一个Shopee没干掉了。墨腾创投最新发布的《2024年东南亚电商报告》显示，去年，东南亚地区的电商平台商品交易总额达到1146亿美元，Shopee以48%的市场份额，位列第一;其次是Lazada，占比16.4%;TikTok和Tokopedia各占14.2%，排名第三。
站长网2024-07-30 18:04:42
0000