研究人员提出 “Hyena”：可能颠覆现有的大模型注意力机制系统

站长网2023-07-19 19:18:310阅

一项由斯坦福大学和 Mila 研究人员提出的新架构 “Hyena” 正在自然语言处理（NLP）社区中引起轰动，并被认为可能颠覆现有的注意力机制系统。

该架构通过长卷积和逐元素乘法门控制实现了与注意力机制相媲美的性能，同时降低了计算成本。通过在自动回归语言建模和图像分类方面进行实验，研究人员发现 Hyena 能够在性能上与注意力模型相媲美，并且具有更低的计算复杂度和参数数量。这项研究对于大规模语言模型的开发具有重要意义，并可能成为一种高效的替代方案。

研究人员在论文中提到:

二次算子可以大规模匹配注意力模型的质量，而无需在参数和优化成本方面付出高昂的代价。基于有针对性的推理任务，作者提炼出了对其性能有贡献的三个最重要的属性。

数据控制

次线性参数缩放

不受上下文限制。

考虑到这些要点，他们随后引入了鬣狗等级制度。这个新算子结合了长卷积和逐元素乘法门控，以匹配大规模注意力的质量，同时降低计算成本。

进行的实验揭示了令人震惊的结果。

语言建模。

Hyena 的扩展性在自回归语言模型上进行了测试，在基准数据集 WikiText103和 The Pile 上对困惑度进行评估时，发现 Hyena 是第一个与 GPT 质量相匹配的无注意力卷积架构，总 FLOPS 降低了20%。

WikiText103上的困惑（相同的分词器）。* 是来自(Dao 等人，2022c)的结果。更深更薄的模型(Hyena-slim)可实现更低的困惑度

训练模型的堆上的困惑，直到令牌总数达到50亿（每个令牌总数不同）。所有模型都使用相同的分词器 (GPT2)。FLOP 计数针对150亿代币运行

大规模图像分类

该论文展示了 Hyena 作为图像分类通用深度学习算子的潜力。在图像翻译方面，他们用 Hyena 算子替换了 Vision Transformer（ViT）中的注意力层，并将性能与 ViT 进行匹配。

在 CIFAR-2D 上，我们在标准卷积架构中测试了2D 版本的 Hyena 长卷积滤波器，该滤波器在2D 长卷积模型 S4ND（Nguyen 等人，2022）的精度上进行了改进，加速率提高了8%，参数减少了25% 。

在十亿级参数规模上取得的有希望的结果表明，注意力可能不是我们所需要的全部，并且像鬣狗这样的更简单的二次设计，通过简单的指导原则和对机械可解释性基准的评估，构成了高效大型模型的基础。

研究人员提出Hyena可能颠覆现有的大模型注意力机制系统

0000

评论列表

共(0)条

相关推荐

站长资讯
贾扬清新公司Lepton AI曝光 ONNX联创、etcd作者加盟
知名人工智能科学家贾扬清在今年3月宣布离职创业后，他的新公司终于浮出水面。据悉，贾扬清的新公司名为LeptonAI，联合创始成员包括ONNX的联创和etcd的作者等人。LeptonAI的目标是建立高效的AI应用平台，他们的产品正在内测中。
站长网2023-07-18 18:29:37
0000
站长资讯
AI获奖名画申请版权被拒！作者624次提示打造
还记得第一个获奖的AI画作《太空歌剧院》吗?最近它又来到聚光灯下——作者JasonAllen为它申请版权，被美国版权局拒绝。理由是这幅画AI含量过高。Allen解释这幅画作并非全由AI生成，他在Midjourney进行了至少624次提示后才生成了初始图像，然后还用PS修改了缺陷加了新的内容，最后用GigapixelAI增加了图像分辨率和尺寸。也就是成品中也包含大量人类劳动在里面。
站长网2023-09-13 10:55:43
0000
站长资讯
文本直接在3D场景中生成对象，谷歌推出InseRF模型
随着大模型技术的飞速发展，基于语言和视觉的3D场景编辑方法取得了十足进步，如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。但在内容生成方面依然面临困难，例如，在3D场景中直接生成一只3D蝴蝶。为了解决这一难题，谷歌瑞士公司和苏黎世联邦理工学院联合开发了InseRF模型。用户通过InseRF只需输入文本描述和选择特定区域，就能在3D场景中直接生成物品。
站长网2024-01-28 09:51:27
0001
北京大学院长谈人工智能替代劳动力：不能一夜之间把所有人工作弄没会引起公愤
7月27日消息，北京大学国家发展研究院院长黄益平今天公开谈论人工智能替代劳动力，其称不能一夜之间把所有人的工作都弄没了，这会引起公愤。黄益平指出，人工智能、数字技术可能给中国提供了一个当年日本不曾拥有的机会，或可以弥补、缓解劳动力减少造成的对经济的冲击。
站长网站长资讯2024-07-30 08:43:38
0000
站长资讯
男子打车8公里被收229元还跨楼越湖了！滴滴回应：司机用了作弊器
快科技7月20日消息，据报道，一男子在上海打网约车乘坐了8公里，结果订单却显示去了趟苏州，且车费花了两百多元。据当事人张先生介绍，他当时打车地在上海，路程只有8公里左右，预估费用不到30元，但令他没想到的是，订单结束后，打车费用229.66元，且自己打车打到了苏州。滴滴系统订单显示，其行程途经江苏省苏州市吴江区，来回直线距离超过160公里，且路线横穿公路湖泊和建筑物，明显异常。
站长网2024-07-21 02:58:42
0000