Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
## 划重点:
1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。
2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。
3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较,Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。
在最新的研究中,Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型,该模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有开放权重。该模型被授权使用 Apache2.0许可证,并作为专家混合的稀疏网络仅用作解码器模型。
研究团队透露,Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组,称为专家,由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分,这种方法有效地增加了模型的参数空间,同时保持成本和延迟的控制。

图源备注:图片由AI生成,图片授权服务商Midjourney
Mistral 通过使用32k token上下文大小的多语言数据进行预训练,表现出色,与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数,允许在小批量大小时更快的推理时间,并在大批量大小时提高吞吐量。
Mixtral 在包括多语言理解、代码生成和数学等测试中,明显优于Llama270B。实验证明,Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据,无论数据在序列中的长度和位置如何。
为确保公正准确的评估,研究团队使用了他们的评估流程重新运行了基准测试,详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。
在0-shot环境中,对常识推理任务进行了评估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,对世界知识任务进行了评估,包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH,而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。
研究还展示了 Mixtral8x7B – Instruct,这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中,Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。
为促进广泛的可访问性和各种应用,Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证,允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理,团队还修改了vLLM项目。
论文网址:https://arxiv.org/abs/2401.04088
代码:https://github.com/mistralai/mistral-src
SAP CX 推出创新的生成式 AI 工具:为市场营销、销售、商务等领域注入智能动力
站长之家(ChinaZ.com)10月26日消息:全球软件巨头SAP的CX部门今天宣布,在其解决方案组合中推出一系列的生成式人工智能(genAI)功能。这些功能包括一个名为Joule的生成式AI助手,它将被嵌入到整个SAP云服务中,不仅仅局限于CX领域。该声明是在今天早上的虚拟SAPCXLive活动中宣布的。站长网2023-10-26 09:59:260000Midjoureny v6将于下周推出风格一致性功能
昨晚在Midjoureny的OfficeTime中提到,下周将推出新的版本6(v6)更新。这次更新将引入全新的角色和风格参考功能,目前正在进行角色参考的测试。用户将能够在不同风格中保持角色的一致性。需要注意的是,新的风格参考将会取代旧的版本,并且新的描述功能也将很快开始测试。除此之外,他们正在探索加入风格随机选项的可能性。站长网2024-02-29 14:15:460000OPPO终止哲库ZEKU业务
今日,OPPO方面表示,面对全球经济、手机市场的不确定性,经过慎重考虑,公司决定终止ZEKU业务。OPPO称,这是一个艰难的决定,我们会妥善处理相关事宜,并将一如既往做好产品,持续创造价值。谢谢各位朋友的关心与支持。据了解,2019年8月,OPPO成立芯片子公司哲库科技(ZEKU),布局芯片领域。站长网2023-05-12 12:08:440001流畅度大增!华为良心:4年前荣耀老机型升级鸿蒙4
快科技8月6日消息,HarmonyOS4发布之后,很多老用户问了,荣耀手机能升级鸿蒙新系统吗?答案是肯定的。HarmonyOS官微公布了荣耀手机的升级计划:荣耀30,荣耀30Pro,荣耀30Pro,荣耀V30,荣耀V30PRO、荣耀Play4Pro等6款荣耀机型将于9月-12月开启HarmonyOS4升级,具体升级时间敬请关注官方升级公告。站长网2023-08-06 12:48:310001老匡:3个AI新玩法,引流+成交,实操,速看!
这段时间,我们在视频号、小红书等平台,又发现了几个利用AI引流或做小生意的新玩法,本文3个案例,就最近这两个月刚出来,可以说新鲜出炉,附详细操作步骤,供大家参考,觉得不错,转发支持一把,感谢!1、“AI预测胎儿长相”引流宝妈粉2、“AI老人祝福号”卖中老年产品3、淘宝卖“AI防封二维码”服务01“AI预测胎儿长相”引流宝妈粉站长网2023-08-15 13:54:010004