比Transformer更好的模型架构?Monarch Mixer更低成本取得更优表现
要点:
1. Monarch Mixer (M2) 是一种新的模型架构,与传统的Transformer不同,它通过使用Monarch矩阵替代注意力和MLP,使之在语言和图像实验中以更低的成本取得了更优的表现。
2. Monarch Mixer 的关键创新点在于其次二次的复杂度,使其能够处理更长的序列和更高维度的表征,同时保持计算效率。
3. 实验证明,M2在各种任务上,包括语言建模和图像分类,能够与传统Transformer媲美,同时具有更高的硬件效率和更少的参数。
近年来,Transformer模型在自然语言处理和计算机视觉领域取得了巨大成功,但它的高成本、复杂性以及依赖于注意力机制和多层感知机(MLP)等组件使得人们开始寻求替代方案。论文介绍了一种名为Monarch Mixer(M2)的全新模型架构,这个架构在序列长度和模型维度上都表现出次二次复杂度的特点,同时在现代硬件加速器上具有出色的性能。
论文地址:https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
Monarch Mixer(M2)的主要创新点在于它采用了Monarch矩阵,将传统Transformer中的注意力机制和MLP替代为更高性能的结构。Monarch矩阵是一种次二次结构化矩阵,能够支持更长的序列和更高维度的表示,同时保持计算效率。这个矩阵可以通过分块对角矩阵的积进行参数化,其计算复杂度与输入长度呈次二次增长关系,这使得M2能够在处理大规模数据时具有出色的性能。
实验结果表明,M2在多个任务上都能够媲美传统Transformer模型,包括非因果语言建模、图像分类和因果语言建模。与传统Transformer相比,M2不仅能够节省大量参数,还具有更高的硬件效率,这使得它成为一个有潜力的替代选择。
斯坦福大学和纽约州立大学布法罗分校的研究团队的工作为机器学习领域带来了新的思路,挑战了传统Transformer模型的优越性。他们的研究不仅探索了Monarch Mixer的理论基础,还进行了一系列实验来验证其性能。这篇文章的发表为机器学习社区提供了一个全新的研究方向,也让人们重新思考了在自然语言处理和计算机视觉任务中的模型选择。
总的来说,Monarch Mixer(M2)是一种具有次二次复杂度的新型模型架构,能够在不使用传统Transformer中的注意力和MLP的情况下,在自然语言处理和计算机视觉任务中表现出色。它的硬件效率和参数效率使其成为一个有望取代传统Transformer的新选择,为深度学习研究领域带来了新的思考。
“听说,哈佛 最火课程 CS50 的新老师,是一位……AI 聊天机器人?!”
去年年底ChatGPT毫无征兆地出现,给各行各业都带来了不同程度的冲击,由此掀起的AIGC热潮更是改变了许多领域的游戏规则。但与此同时,诸多大厂和学校也对ChatGPT发出了禁令:三星、亚马逊等企业警告员工不得使用ChatGPT;纽约市教育局对ChatGPT下了封杀令;甚至,今年3月意大利也宣布对ChatGPT全面封杀,还要立案调查……站长网2023-06-28 15:43:010000CEO被捕后 斗鱼发布首个财报:Q3净利润大增180%
快科技12月7日消息,今天,斗鱼发布了2023年第三季度未经审计的财务报告,在非美国通用会计准则下,实现净利润7190万元,同比增长180%,环比增长17.2%。这也是斗鱼CEO涉嫌开赌场被捕后,斗鱼发布的首个财报,报告显示,第三季度斗鱼总净营收为13.59亿元,同比下降24.4%;毛利润为1.92亿元,毛利润率14.2%。00002499元起!vivo Pad3正式发布:骁龙8s Gen3配10000mAh超大电池
快科技6月28日消息,今日,vivoPad3正式发布,搭载骁龙8sGen3移动平台,起售价为2499元。在售价方面,vivoPad38GB128GB版本售价为2499元,8GB256GB版本售价为2799元,12GB256GB版本售价为3099元,12GB512GB版本售价为3399元。平板提供了它提供了薄霞紫、春潮蓝和寒星灰三种配色。站长网2024-06-28 22:30:290000谷歌副总裁 Sissie Hsiao:Gemini AI 演示视频「完全真实」,尽管谷歌「为了简洁而缩短了部分内容」
站长之家(ChinaZ.com)12月12日消息:在日益激烈的生成型AI市场竞争中,谷歌近期推出了其大型语言模型Gemini的预告视频。然而,有关该视频真实性的争议随后引发了广泛关注。0000上海AI实验室开源工具箱XTuner 8GB显卡就可训练大模型
近日,上海人工智能实验室发布了一款面向大模型训练的开源工具箱XTuner,通过支持多种硬件适配,大幅降低了企业进行大模型训练的门槛,尤其是对中小企业具有重要意义。XTuner为各类开源模型提供了多样的微调框架站长网2023-09-20 10:19:030000