昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE 性能强劲成本更低
在大模型技术迅速发展的背景下,昆仑万维公司开源了一个具有里程碑意义的稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色,而且还大幅降低了推理成本,为应对大规模密集型LLM带来的挑战提供了有效的解决方案。

Skywork-MoE模型特点:
开源和免费商用:Skywork-MoE的模型权重、技术报告完全开源,且免费商用,无需申请。
推理成本降低:该模型在保持性能强劲的同时,大幅降低了推理成本。
稀疏模型:Skywork-MoE是一个专家混合模型(MoE),通过将计算分配给专门的子模型或“专家”,提供了一种经济上更可行的替代方案。
支持单台4090服务器推理:是首个支持用单台4090服务器推理的开源千亿MoE大模型。
技术细节:
模型权重和开源仓库:模型权重可在Hugging Face上下载,开源仓库位于GitHub。
推理代码:提供了支持8x4090服务器上8bit量化加载推理的代码。
性能:在8x4090服务器上,使用昆仑万维团队首创的非均匀Tensor Parallel并行推理方式,Skywork-MoE可以达到2200tokens/s的吞吐量。
模型性能和技术创新:
参数量:Skywork-MoE的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B。
性能对比:在相同的激活参数量下,Skywork-MoE的能力在行业前列,接近70B的Dense模型,推理成本有近3倍的下降。
训练优化算法:Skywork-MoE设计了两种训练优化算法,包括Gating Logits归一化操作和自适应的Aux Loss,以解决MoE模型训练困难和泛化性能差的问题。
大规模分布式训练:
Expert Data Parallel:提出了一种新的并行设计方案,可以在Expert数量较小时高效地切分模型。
非均匀切分流水并行:提出了非均匀的流水并行切分和重计算Layer分配方式,使得计算/显存负载更均衡。
实验和经验规则:
Scaling Law实验:探究了影响Upcycling和From Scratch训练MoE模型好坏的约束。
训练经验规则:如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,则选择From Scratch训练MoE更好;否则,选择Upcycling训练MoE可以减少训练成本。
Skywork-MoE的开源为大模型社区带来了一个强大的新工具,有助于推动人工智能领域的发展,特别是在需要处理大规模数据和计算资源受限的场景中。
项目页:https://top.aibase.com/tool/skywork-moe
模型下载地址:https://huggingface.co/Skywork/Skywork-MoE-Base
镁除了烧,还能拿来干嘛?
镁(Mg)是宇宙中第九丰富的元素,它生成于巨大的老年恒星内部,由三个氦原子核相继加入一个碳原子核形成新的镁核。当像超新星这样的恒星爆炸时,大部分的镁被散射到星际介质中,在那里镁可以循环进入新的恒星系统。站长网2023-05-24 12:00:410000理想汽车发布OTA 5.0版本 理想同学引入Mind GPT
在昨日的理想汽车智能软件发布会上,理想汽车宣布了一项重大更新:在他们的OTA5.0版本中,将引入自家研发的多模态认知大模型——MindGPT。MindGPT作为理想汽车完全自主研发的产品,与汽车的融合度极高,致力于让每一位乘车的家庭成员都能在车内享受到顶级的人工智能体验。虽然目前它还处在内测阶段,但其表现已经足够亮眼。站长网2023-12-11 08:27:270000MagicSchool AI 为现代教育者提供50多种AI工具,助力教学
随着生成式AI的发展,教育领域也开始积极应用这一技术,以提升教学质量。其中,MagicSchoolAI是一款基于OpenAI的ChatGPT技术开发的AI工具,旨在帮助教师在课堂中应用生成式AI。该工具的创始人AdeelKhan曾是一名教师,因此他和他的团队能够根据教育需求进行精细调整,采用高质量的培训数据,提供丰富的教育工具,以满足教师的需求。站长网2023-10-11 16:20:290002红魔8S Pro系列手机发布 首发骁龙8Gen2领先版售价3999元起
今日下午,红魔游戏手机正式发布了红魔8SPro系列手机,分为红魔8SPro版以及红魔8SPro版,售价3999元起,全平台7月5日16:30开启预约、预售,7月11号上午十点正式开售。该手机全球首发骁龙8Gen2领先版(3.36GHz),安兔兔跑分高达1713658分。左右边框为1.48mm,上边框为1.68mm,下巴为2.28mm,屏占比高达93.7%。站长网2023-07-05 19:09:100000AI视野:ChatGPT模型大更新;阿里云发布多模态大模型;Runway视频生成输给Pixverse;百度推多模态模型UNIMO-G
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用ChatGPT模型大更新【AiBase提要:】⭐发布了两款全新大、小文本嵌入模型,站长网2024-01-26 15:51:250000