Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
## 划重点:
1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。
2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。
3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较,Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。
在最新的研究中,Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型,该模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有开放权重。该模型被授权使用 Apache2.0许可证,并作为专家混合的稀疏网络仅用作解码器模型。
研究团队透露,Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组,称为专家,由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分,这种方法有效地增加了模型的参数空间,同时保持成本和延迟的控制。
图源备注:图片由AI生成,图片授权服务商Midjourney
Mistral 通过使用32k token上下文大小的多语言数据进行预训练,表现出色,与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数,允许在小批量大小时更快的推理时间,并在大批量大小时提高吞吐量。
Mixtral 在包括多语言理解、代码生成和数学等测试中,明显优于Llama270B。实验证明,Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据,无论数据在序列中的长度和位置如何。
为确保公正准确的评估,研究团队使用了他们的评估流程重新运行了基准测试,详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。
在0-shot环境中,对常识推理任务进行了评估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,对世界知识任务进行了评估,包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH,而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。
研究还展示了 Mixtral8x7B – Instruct,这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中,Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。
为促进广泛的可访问性和各种应用,Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证,允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理,团队还修改了vLLM项目。
论文网址:https://arxiv.org/abs/2401.04088
代码:https://github.com/mistralai/mistral-src
自曝纳税近1亿,“王思聪好友”直播带货,闷声发大财
“知道当网红赚钱,但没想到这么赚钱。”在众多打工人掐着手指算退税还是补税的3月,网红潘雨润在视频中晒出了自己交税9503万元的记录,引发一片热议。按照潘雨润“顶格纳税”的说法,她在2023年的收入将超过2亿元。潘雨润晒出的纳税证明这个在抖音有着778万粉丝的网红,最早引发全网关注还是因为王思聪,也早早就明白“流量的尽头是变现”这个道理。站长网2024-03-25 13:36:480000张朝阳再次建议年轻人要早起 要严肃对待人生
搜狐创始人张朝阳近日再次强调年轻人应该早起,并认为过多的睡眠没有意义。他主张早起后可以有更多时间思考并在世界开始运转时立即采取行动。此前,张朝阳也曾提倡只睡四小时的睡眠法,引发了社会热议。他解释称,人在睡眠超过一定时间后容易做噩梦,影响睡眠质量。他建议每晚睡眠六小时,四小时更为理想。0000强大代码解释器OpenCodeInterpreter 可运行生成的代码
OpenCodeInterpreter是一个强大的代码解释器,它不仅可以生成代码,还能根据人类的反馈进行学习循环改进,以生成更高质量、更接近用户需求的代码。它的最突出的特点是可以运行生成的代码,以验证其是否按预期工作,包括检查是否存在错误或异常。这使得OpenCodeInterpreter提供了一个更接近实际编程环境的开发体验。站长网2024-02-23 14:36:420002AIGC创业公司还没盈利,微软Adobe已赚得盆满钵满
一出奥特曼在OpenAI“来去之间”的戏码,以回归暂告一段落。过程很抓马,吃瓜群众很激动,当然了,最开心的还得是微软。不仅因为这出“闹剧”无论怎么发展,都是微软稳赢,还因为背后潜藏着一个更大的瓜——大模型的最大利益获得者,居然还是微软这些让人意想不到的老牌玩家。比如StableDiffusion和Midjourney争先恐后迭代卷上天,但凭借AI作图赚得盆满钵满的,其实是Adobe。站长网2023-11-25 13:43:120000