MiniMax 稀宇科技发布万亿 MoE 模型abab 6.5
站长网2024-04-18 17:11:351阅
MiniMax 在2024年4月17日推出了 abab6.5系列模型,这是一个万亿 MoE(Mixture of Experts)模型。在 MoE 还没有成为行业共识的情况下,MiniMax 投入了大量精力研究 MoE 技术,并在今年1月发布了国内首个基于 MoE 架构的 abab6模型。经过三个月的研发,他们推出了更强大的 abab6.5模型。
abab6.5系列包含两个模型:abab6.5和 abab6.5s。abab6.5拥有万亿参数,支持200k tokens 的上下文长度;而 abab6.5s 采用了相同的训练技术和数据,但更高效,支持200k tokens 的上下文长度,并且可以在1秒内处理近3万字的文本。

在各类核心能力测试中,abab6.5开始接近世界上最领先的大语言模型,如 GPT-4、Claude-3、Gemini-1.5等。
abab6.5和 abab6.5s 将会陆续更新到 MiniMax 旗下的产品中,包括生产力产品海螺 AI 和 MiniMax 开放平台。用户可以通过这些产品来体验这些先进的语言模型。
0001
评论列表
共(0)条相关推荐
Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解
划重点:-GoogleAI推出了SANPO数据集,用于户外人类主观场景理解。-SANPO包括真实世界和合成数据,具有丰富的注释和多属性特征。-这个数据集将有助于研究人员开发视觉导航系统,支持视障人士,并拓展先进的视觉场景理解。站长网2023-10-16 10:58:090000Reddit神帖:利用简陋的3D模型动画和Animatediff生成自定义2D动画
在Reddit上,一个帖子引起了广泛的关注。这个帖子展示了一种利用简陋的3D模型动画和Animatediff生成高度自定义的2D动画的方法。这种创新的处理方式也出现在了B站前段时间的胶囊计划中。站长网2024-03-06 17:29:190000Meta 推出 LayerSkip:提升大语言模型推理速度
Meta公司最新发布了LayerSkip,这是一款端到端的解决方案,专门设计用于提升大型语言模型(LLM)的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验,并在多个任务上展现了显著的性能提升。LayerSkip的主要成就包括:CNN/DM文档摘要任务:在这一任务上,LayerSkip将推理速度提升了2.16倍,显著提高了文档处理的效率。站长网2024-04-28 17:54:520001视频版ContorlNet来了!SparseCtrl增强AI生成视频可控性
要点:SparseCtrl是一种用于文本到视频(T2V)扩散模型的技术,旨在通过时间稀疏信号实现对视频结构的灵活控制,无需过多输入。该方法引入了一个额外的条件编码器,用于处理这些稀疏信号,同时保持预训练的T2V模型不变。这种方法与多种形式的输入兼容,包括草图、深度和RGB图像,为视频生成提供更实用的控制方式。站长网2023-11-30 16:28:1400010Cisco全面投入人工智能,强化网络安全策略
**划重点:**1.🚀Cisco加大力度投入人工智能,推出AI助手和加密可见性引擎,应对网络和防火墙配置错误,满足Gartner预测的99%防火墙违规的挑战。2.🤖CiscoAI助手基于全球最大的安全数据集进行训练,每天分析超过5500亿安全事件,而加密可见性引擎则专注于检查加密流量,避免解密操作的问题。站长网2023-12-08 15:16:240009