Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
## 划重点:
1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。
2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。
3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较,Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。
在最新的研究中,Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型,该模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有开放权重。该模型被授权使用 Apache2.0许可证,并作为专家混合的稀疏网络仅用作解码器模型。
研究团队透露,Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组,称为专家,由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分,这种方法有效地增加了模型的参数空间,同时保持成本和延迟的控制。

图源备注:图片由AI生成,图片授权服务商Midjourney
Mistral 通过使用32k token上下文大小的多语言数据进行预训练,表现出色,与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数,允许在小批量大小时更快的推理时间,并在大批量大小时提高吞吐量。
Mixtral 在包括多语言理解、代码生成和数学等测试中,明显优于Llama270B。实验证明,Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据,无论数据在序列中的长度和位置如何。
为确保公正准确的评估,研究团队使用了他们的评估流程重新运行了基准测试,详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。
在0-shot环境中,对常识推理任务进行了评估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,对世界知识任务进行了评估,包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH,而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。
研究还展示了 Mixtral8x7B – Instruct,这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中,Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。
为促进广泛的可访问性和各种应用,Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证,允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理,团队还修改了vLLM项目。
论文网址:https://arxiv.org/abs/2401.04088
代码:https://github.com/mistralai/mistral-src
抖音:极个别账号仿冒“中图网”名称 已进行严格处置
抖音发布治理“自媒体”违法违规现象的公告称,近日发生的京津冀洪涝灾害,使位于河北涿州的全国最大图书物流仓储基地被洪水淹没,库房内大量书籍因无法及时转移而遭浸泡。灾情导致“中图网”等企业损失严重。对此,大量网友表示愿意提供帮助,并纷纷在线购买书籍。站长网2023-08-07 14:04:010002Top3厂商COO,如何看待一年增长80倍的短剧出海?
短剧出海继续狂奔。今年4月,第三方数据公司Appfigures公布了今年第一季度短剧出海成绩单。整个Q1海外短剧品类累计营收2.45亿美元,相比去年同期增长了80倍,市场规模迅速扩大。同时发布的品类榜单显示,ReelShort、DramaBox和ShortMax在下载和营收两个维度上大幅领跑同类产品。2024Q1海外短剧下载/收入排行榜(ShortTV站长网2024-08-02 14:29:550000问界新M7后驱智驾版正式发布 售价28.98万元起
在今日的发布会上,华为余承东表示,华为在智能汽车领域采取了三种模式:零部件供应模式、HI模式和鸿蒙智选车模式,旨在帮助汽车企业打造高品质、智能化的汽车产品并实现良好的销售业绩。其中,鸿蒙智选车模式是华为智能汽车业务的新升级,通过与中国汽车产业的合作伙伴联手,共同迎接智能电动汽车时代的发展高峰。同时,余承东公布数据称,问界新M7是一款备受关注的产品,自预订以来取得了不俗的销售业绩。站长网2023-11-28 15:55:590000马斯克入选“失败博物馆”:给孩子起名字也失败了
凤凰网科技讯北京时间5月2日消息,俗话说“失败是成功之母”。瑞典有个别出心裁的“失败博物馆”就是为了向人们展示大量精选的失败案例,帮助人们从过去的错误中吸取教训,这其中就包括大名鼎鼎的特斯拉CEO埃隆马斯克(ElonMusk)。0000亚马逊 AWS 正投资 1 亿美元建设生成式 AI 中心 以追赶微软和谷歌的步伐
亚马逊的云计算部门AmazonWebServices(AWS)宣布将投资1亿美元建立一个生成式人工智能中心,以跟上微软和谷歌的步伐。对于一家拥有640亿美元现金和每年五千亿美元运营费用的公司来说,这只是一个小额投资。但这一宣布表明亚马逊AWS认识到当前生成式人工智能的重要性,并意识到与微软和谷歌等竞争对手并肩参与这场竞争的重要性。站长网2023-06-26 12:31:540000