Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5
## 划重点:
1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。
2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。
3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较,Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。
在最新的研究中,Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型,该模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有开放权重。该模型被授权使用 Apache2.0许可证,并作为专家混合的稀疏网络仅用作解码器模型。
研究团队透露,Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组,称为专家,由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分,这种方法有效地增加了模型的参数空间,同时保持成本和延迟的控制。
图源备注:图片由AI生成,图片授权服务商Midjourney
Mistral 通过使用32k token上下文大小的多语言数据进行预训练,表现出色,与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数,允许在小批量大小时更快的推理时间,并在大批量大小时提高吞吐量。
Mixtral 在包括多语言理解、代码生成和数学等测试中,明显优于Llama270B。实验证明,Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据,无论数据在序列中的长度和位置如何。
为确保公正准确的评估,研究团队使用了他们的评估流程重新运行了基准测试,详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。
在0-shot环境中,对常识推理任务进行了评估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,对世界知识任务进行了评估,包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH,而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。
研究还展示了 Mixtral8x7B – Instruct,这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中,Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。
为促进广泛的可访问性和各种应用,Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证,允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理,团队还修改了vLLM项目。
论文网址:https://arxiv.org/abs/2401.04088
代码:https://github.com/mistralai/mistral-src
华为:像GPT这样的基础大模型 昇腾AI已原生支持30多个
快科技8月12日消息,在昨日举办的2023东湖算力与大数据创新大会上,华为常务董事、企业BG总裁汪涛为大会致辞。汪涛在致辞中表示:人类社会正从数字时代走向智能时代。人工智能的加速发展,特别是大模型的出现,推动人工智能从感知理解走向内容生成,深刻影响社会与生活。从个人到行业,从生活到生产、从边缘到核心,人工智能正在重塑千行万业。0000人工智能可在癌症治疗中得到应用 有助于节省放射科医生时间
人工智能(AI)可能在更多癌症治疗中得到应用,因为一项由一家正在开发和使用该技术的医院进行的研究发现,它有助于节省放射科医生的时间。Osairis是由剑桥大学医院NHS基金会信托的肿瘤学家RajJena博士领导的团队使用NHSAI实验室的50万英镑拨款创建的。该程序目前正在剑桥的阿登布鲁克医院的头颈癌和前列腺癌科使用。站长网2023-06-29 11:35:040000最严新规上线,303名主播被关收礼物功能!抖音直播“健康分”来真的了
2024年刚开始,抖音直播就有了新动作。1月3日,试运行了3个多月后,抖音直播“健康分”正式运行,对应的管理措施落地生效:首日近5000名主播受到处罚,其中190名主播被无限期回收直播权限、303名主播被关闭了礼物收入功能并禁止使用PK功能。这可以说是面向主播的最严新规。那么,这个新规实行之后,主播和机构应该怎么做才能避免处罚?平台又为何要推行这么严格的新规?站长网2024-01-04 12:11:300000元象XVERSE开源650亿参数通用大模型XVERSE-65B
元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。XVERSE-65B是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了Transformer网络结构,参数规模达到了650亿。站长网2023-11-06 10:41:070000剪映已支持杜比视界HDR格式视频制作 目前仅支持苹果设备
站长之家(ChinaZ.com)5月20日消息:杜比官方宣布,剪映用户现可通过iOS、iPadOS和macOS设备,对杜比视界HDR格式视频进行剪辑和导出,轻松实现杜比视界格式视频的制作,这将进一步提升用户的视频创作品质,推动更多优质视频内容的产出。站长网2024-05-20 22:10:540000