20496

MiniMax 稀宇科技发布万亿 MoE 模型abab 6.5

站长网2024-04-18 17:11:351阅

MiniMax 在2024年4月17日推出了 abab6.5系列模型，这是一个万亿 MoE（Mixture of Experts）模型。在 MoE 还没有成为行业共识的情况下，MiniMax 投入了大量精力研究 MoE 技术，并在今年1月发布了国内首个基于 MoE 架构的 abab6模型。经过三个月的研发，他们推出了更强大的 abab6.5模型。

abab6.5系列包含两个模型:abab6.5和 abab6.5s。abab6.5拥有万亿参数，支持200k tokens 的上下文长度;而 abab6.5s 采用了相同的训练技术和数据，但更高效，支持200k tokens 的上下文长度，并且可以在1秒内处理近3万字的文本。

在各类核心能力测试中，abab6.5开始接近世界上最领先的大语言模型，如 GPT-4、Claude-3、Gemini-1.5等。

abab6.5和 abab6.5s 将会陆续更新到 MiniMax 旗下的产品中，包括生产力产品海螺 AI 和 MiniMax 开放平台。用户可以通过这些产品来体验这些先进的语言模型。

MiniMax稀宇科技发布万亿MoE模型abab6 5

0001

评论列表

共(0)条

相关推荐

站长资讯
Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解
划重点:-GoogleAI推出了SANPO数据集，用于户外人类主观场景理解。-SANPO包括真实世界和合成数据，具有丰富的注释和多属性特征。-这个数据集将有助于研究人员开发视觉导航系统，支持视障人士，并拓展先进的视觉场景理解。
站长网2023-10-16 10:58:09
0000
站长资讯
Reddit神帖：利用简陋的3D模型动画和Animatediff生成自定义2D动画
在Reddit上，一个帖子引起了广泛的关注。这个帖子展示了一种利用简陋的3D模型动画和Animatediff生成高度自定义的2D动画的方法。这种创新的处理方式也出现在了B站前段时间的胶囊计划中。
站长网2024-03-06 17:29:19
0000
站长资讯
Meta 推出 LayerSkip：提升大语言模型推理速度
Meta公司最新发布了LayerSkip，这是一款端到端的解决方案，专门设计用于提升大型语言模型（LLM）的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验，并在多个任务上展现了显著的性能提升。LayerSkip的主要成就包括:CNN/DM文档摘要任务:在这一任务上，LayerSkip将推理速度提升了2.16倍，显著提高了文档处理的效率。
站长网2024-04-28 17:54:52
0001
站长资讯
视频版ContorlNet来了！SparseCtrl增强AI生成视频可控性
要点:SparseCtrl是一种用于文本到视频（T2V）扩散模型的技术，旨在通过时间稀疏信号实现对视频结构的灵活控制，无需过多输入。该方法引入了一个额外的条件编码器，用于处理这些稀疏信号，同时保持预训练的T2V模型不变。这种方法与多种形式的输入兼容，包括草图、深度和RGB图像，为视频生成提供更实用的控制方式。
站长网2023-11-30 16:28:14
00010
站长资讯
Cisco全面投入人工智能，强化网络安全策略
**划重点:**1.🚀Cisco加大力度投入人工智能，推出AI助手和加密可见性引擎，应对网络和防火墙配置错误，满足Gartner预测的99%防火墙违规的挑战。2.🤖CiscoAI助手基于全球最大的安全数据集进行训练，每天分析超过5500亿安全事件，而加密可见性引擎则专注于检查加密流量，避免解密操作的问题。
站长网2023-12-08 15:16:24
0009