首页站长资讯Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型效果堪比GPT-3.5

Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型效果堪比GPT-3.5

站长网2024-01-15 15:25:560阅

## 划重点:

1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts（SMoE）模型的 Mixtral8x7B 语言模型，采用开放权重。

2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据（32k令牌上下文大小）的预训练中表现优异，与Llama270B和GPT-3.5相比，性能不逊色甚至更好。

3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较，Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。

在最新的研究中，Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型，该模型基于新的 Sparse Mixture of Experts（SMoE）模型，具有开放权重。该模型被授权使用 Apache2.0许可证，并作为专家混合的稀疏网络仅用作解码器模型。

研究团队透露，Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组，称为专家，由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分，这种方法有效地增加了模型的参数空间，同时保持成本和延迟的控制。

图源备注：图片由AI生成，图片授权服务商Midjourney

Mistral 通过使用32k token上下文大小的多语言数据进行预训练，表现出色，与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数，允许在小批量大小时更快的推理时间，并在大批量大小时提高吞吐量。

Mixtral 在包括多语言理解、代码生成和数学等测试中，明显优于Llama270B。实验证明，Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据，无论数据在序列中的长度和位置如何。

为确保公正准确的评估，研究团队使用了他们的评估流程重新运行了基准测试，详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。

在0-shot环境中，对常识推理任务进行了评估，包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中，对世界知识任务进行了评估，包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH，而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。

研究还展示了 Mixtral8x7B – Instruct，这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中，Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。

为促进广泛的可访问性和各种应用，Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证，允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理，团队还修改了vLLM项目。

论文网址:https://arxiv.org/abs/2401.04088

代码:https://github.com/mistralai/mistral-src

MistralAI推出Mixtral8x7B一种改变机器学习的SMoE语言模型效果堪比GPT3 5

0000

评论列表

共(0)条

相关推荐

站长资讯
抖音：极个别账号仿冒“中图网”名称已进行严格处置
抖音发布治理“自媒体”违法违规现象的公告称，近日发生的京津冀洪涝灾害，使位于河北涿州的全国最大图书物流仓储基地被洪水淹没，库房内大量书籍因无法及时转移而遭浸泡。灾情导致“中图网”等企业损失严重。对此，大量网友表示愿意提供帮助，并纷纷在线购买书籍。
站长网2023-08-07 14:04:01
0002
站长资讯
Top3厂商COO，如何看待一年增长80倍的短剧出海？
短剧出海继续狂奔。今年4月，第三方数据公司Appfigures公布了今年第一季度短剧出海成绩单。整个Q1海外短剧品类累计营收2.45亿美元，相比去年同期增长了80倍，市场规模迅速扩大。同时发布的品类榜单显示，ReelShort、DramaBox和ShortMax在下载和营收两个维度上大幅领跑同类产品。2024Q1海外短剧下载/收入排行榜（ShortTV
站长网2024-08-02 14:29:55
0000
站长资讯
问界新M7后驱智驾版正式发布售价28.98万元起
在今日的发布会上，华为余承东表示，华为在智能汽车领域采取了三种模式:零部件供应模式、HI模式和鸿蒙智选车模式，旨在帮助汽车企业打造高品质、智能化的汽车产品并实现良好的销售业绩。其中，鸿蒙智选车模式是华为智能汽车业务的新升级，通过与中国汽车产业的合作伙伴联手，共同迎接智能电动汽车时代的发展高峰。同时，余承东公布数据称，问界新M7是一款备受关注的产品，自预订以来取得了不俗的销售业绩。
站长网2023-11-28 15:55:59
0000
马斯克入选“失败博物馆”：给孩子起名字也失败了
凤凰网科技讯北京时间5月2日消息，俗话说“失败是成功之母”。瑞典有个别出心裁的“失败博物馆”就是为了向人们展示大量精选的失败案例，帮助人们从过去的错误中吸取教训，这其中就包括大名鼎鼎的特斯拉CEO埃隆马斯克(ElonMusk)。
站长网站长资讯2023-05-02 10:08:06
0000
站长资讯
亚马逊 AWS 正投资 1 亿美元建设生成式 AI 中心以追赶微软和谷歌的步伐
亚马逊的云计算部门AmazonWebServices（AWS）宣布将投资1亿美元建立一个生成式人工智能中心，以跟上微软和谷歌的步伐。对于一家拥有640亿美元现金和每年五千亿美元运营费用的公司来说，这只是一个小额投资。但这一宣布表明亚马逊AWS认识到当前生成式人工智能的重要性，并意识到与微软和谷歌等竞争对手并肩参与这场竞争的重要性。
站长网2023-06-26 12:31:54
0000