昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE
2024年6月3日,昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型,名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的,是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。同时,这也是全球首个支持在单台4090服务器上进行推理的开源千亿级 MoE 大模型。
Skywork-MoE 的模型权重、技术报告完全开源,可以免费商用,无需申请。模型的总参数量为146B,激活参数量为22B,共有16个 Expert,每次激活其中的2个 Expert。与其他主流模型相比,在相同的激活参数量下,Skywork-MoE 的性能接近70B 的 Dense 模型,推理成本下降了近3倍。

为了解决 MoE 模型训练困难、泛化性能差等问题,Skywork-MoE 采用了两种训练优化算法:Gating Logits 归一化操作和自适应的 Aux Loss。此外,为了高效进行大规模分布式训练,Skywork-MoE 提出了两个并行优化设计:Expert Data Parallel 和非均匀切分流水并行。
在推理方面,Skywork-MoE 是目前能够在8台4090服务器上进行推理的最大开源 MoE 模型。通过首创的非均匀 Tensor Parallel 并行推理方式,在 FP8量化下,Skywork-MoE 可以实现2200tokens/s 的吞吐。
•模型权重下载:
○https://huggingface.co/Skywork/Skywork-MoE-base
○https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
•模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE
•模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
•模型推理代码:(支持8x4090服务器上8bit 量化加载推理) https://github.com/SkyworkAI/vllm
抖音、小红书掘金PC市场
流量红利见顶后,互联网大厂将目光投向了被冷落已久的PC市场。从之前抖音、快手发布的用户使用峰值可以看出,中午12点,晚19-21点是用户使用的高峰期。在此外的上班时间中,两大App的流量则较为平缓,不过随着存量时代到来,各大App已经将这一时间段视为新增长点。当代年轻人的工作方式也为这些陷入流量焦虑的互联网大厂提供了机会。站长网2023-05-29 15:03:440000WPS逆袭微软Office背后 雷军揭秘:这是中国软件行业最励志的故事
快科技11月30日消息,日前雷军在武大130周年珞珈论坛演讲时提到,WPS是一个硬核的技术英雄梦想,是中国软件行业最励志的故事。WPS的逆袭,就是坚持的胜利。雷军表示,办公软件这样的大型商业软件,开发难度极高,目前全球主要就微软Office、金山WPS这两款。0000马云成立马家厨房公司 经营范围含销售预制菜
最新工商信息显示,11月22日,由马云持股99.9%的杭州大井头贰拾贰号文化艺术有限公司新增一家子公司,主营预制菜、农产品加工和批发等。该子公司名为杭州马家厨房食品有限公司,法定代表人为PAUJASONJOHN,注册资本1000万人民币,经营范围包括食品销售(仅销售预包装食品)、货物进出口、食用农产品批发、日用品批发、酒店管理、技术服务等。站长网2023-11-24 08:27:550000腾讯云发布全新一代云服务器SA5 性能提升120%
腾讯云发布了全新一代的云服务器SA5,搭载了AMDEPYC处理器,实测显示整机性能相比上一代提升了120%,性价比较业内通用方案提升超过30%。SA5在核心密度、访存延时、虚拟化损耗、存储和网络性能等方面都具备了超强的性能。SA5的最大实例规格高达512vCPU,访存延时缩减约50%,虚拟化损耗降到0。站长网2023-11-24 11:16:310000