登陆注册

MoE

  • 昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

    2024年6月3日,昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型,名为Skywork-MoE。这个模型是在之前开源的Skywork-13B模型的基础上扩展而来的,是首个完整应用并落地MoEUpcycling技术的开源千亿级MoE大模型。同时,这也是全球首个支持在单台4090服务器上进行推理的开源千亿级MoE大模型。
    站长网2024-06-03 19:25:21
    0001
  • MiniMax 稀宇科技发布万亿 MoE 模型abab 6.5

    MiniMax在2024年4月17日推出了abab6.5系列模型,这是一个万亿MoE(MixtureofExperts)模型。在MoE还没有成为行业共识的情况下,MiniMax投入了大量精力研究MoE技术,并在今年1月发布了国内首个基于MoE架构的abab6模型。经过三个月的研发,他们推出了更强大的abab6.5模型。
    站长网2024-04-18 17:11:35
    0001
  • 元象发布 XVERSE-MoE-A4.2B 大模型 可免费商用

    元象发布了XVERSE-MoE-A4.2B大模型,采用混合专家模型架构,激活参数为4.2B,效果媲美13B模型。该模型全开源,免费商用,可用于海量中小企业、研究者和开发者,推动低成本部署。
    站长网2024-04-18 15:03:30
    0001
  • 昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE 性能强劲成本更低

    在大模型技术迅速发展的背景下,昆仑万维公司开源了一个具有里程碑意义的稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色,而且还大幅降低了推理成本,为应对大规模密集型LLM带来的挑战提供了有效的解决方案。Skywork-MoE模型特点:开源和免费商用:Skywork-MoE的模型权重、技术报告完全开源,且免费商用,无需申请。
    站长网2024-06-04 14:53:43
    0000
  • MiniMax 发布国内首个 MoE 大语言模型 abab6

    MiniMax在2024年1月16日全量发布了大语言模型abab6,这是国内首个采用MoE架构的大语言模型。MoE架构使得abab6具备处理复杂任务的能力,并且在单位时间内能够训练更多的数据,提高计算效率。相比于之前的版本abab5.5,在处理更复杂、对模型输出有更精细要求的场景中,abab6有显著的提升。
    站长网2024-01-16 17:05:27
    0000
  • 魔搭社区上线Mistral AI 首个开源 MoE 模型 Mixtral8x7B

    MistralAI近日发布了首个开源MoE模型Mixtral8x7B,并宣布在魔搭社区上线。Mixtral-8x7B是一款混合专家模型(MixtrueofExperts),由8个拥有70亿参数的专家网络组成,在能力上,Mixtral-8x7B支持32ktoken上下文长度,支持英语、法语、意大利语、德语和西班牙语,拥有优秀的代码生成能力,可微调为指令跟随模型。
    站长网2023-12-14 09:42:42
    0000
  • 清华发布SmartMoE:支持用户一键实现 MoE 模型分布式训练

    清华大学计算机系PACMAN实验室发布了一种稀疏大模型训练系统SmartMoE,该系统支持用户一键实现Mixture-of-Experts(MoE)模型的分布式训练,并通过自动搜索并行策略来提高训练性能。论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
    站长网2023-08-08 12:00:01
    0000
  • OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」:或被 MoE 彻底重塑导致性能下降

    世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周,OpenAI的GPT-4的用户们纷纷抱怨性能下降,有些人将这个模型与以前的推理能力和其他输出进行比较,称其变得「懒散」和「更笨」。
    站长网2023-07-14 09:50:37
    0000
  • OpenAI 最新模型 GPT-4 大揭秘:从架构、基础设施、训练数据集、成本、视觉到 MoE

    站长之家(ChinaZ.com)7月11日消息:今天SemiAnalysis的DylanPatel和GeraldWong发表了一篇题为《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》的文章,揭示GPT-4的所有细节。
    站长网2023-07-12 12:11:30
    0000