研究人员提出 “Hyena”:可能颠覆现有的大模型注意力机制系统
一项由斯坦福大学和 Mila 研究人员提出的新架构 “Hyena” 正在自然语言处理(NLP)社区中引起轰动,并被认为可能颠覆现有的注意力机制系统。
该架构通过长卷积和逐元素乘法门控制实现了与注意力机制相媲美的性能,同时降低了计算成本。通过在自动回归语言建模和图像分类方面进行实验,研究人员发现 Hyena 能够在性能上与注意力模型相媲美,并且具有更低的计算复杂度和参数数量。这项研究对于大规模语言模型的开发具有重要意义,并可能成为一种高效的替代方案。
研究人员在论文中提到:
二次算子可以大规模匹配注意力模型的质量,而无需在参数和优化成本方面付出高昂的代价。基于有针对性的推理任务,作者提炼出了对其性能有贡献的三个最重要的属性。
数据控制
次线性参数缩放
不受上下文限制。
考虑到这些要点,他们随后引入了鬣狗等级制度。这个新算子结合了长卷积和逐元素乘法门控,以匹配大规模注意力的质量,同时降低计算成本。
进行的实验揭示了令人震惊的结果。
语言建模。
Hyena 的扩展性在自回归语言模型上进行了测试,在基准数据集 WikiText103和 The Pile 上对困惑度进行评估时,发现 Hyena 是第一个与 GPT 质量相匹配的无注意力卷积架构,总 FLOPS 降低了20%。
WikiText103上的困惑(相同的分词器)。* 是来自(Dao 等人,2022c)的结果。更深更薄的模型(Hyena-slim)可实现更低的困惑度
训练模型的堆上的困惑,直到令牌总数达到50亿(每个令牌总数不同)。所有模型都使用相同的分词器 (GPT2)。FLOP 计数针对150亿代币运行
大规模图像分类
该论文展示了 Hyena 作为图像分类通用深度学习算子的潜力。在图像翻译方面,他们用 Hyena 算子替换了 Vision Transformer(ViT)中的注意力层,并将性能与 ViT 进行匹配。
在 CIFAR-2D 上,我们在标准卷积架构中测试了2D 版本的 Hyena 长卷积滤波器,该滤波器在2D 长卷积模型 S4ND(Nguyen 等人,2022)的精度上进行了改进,加速率提高了8%,参数减少了25% 。
在十亿级参数规模上取得的有希望的结果表明,注意力可能不是我们所需要的全部,并且像鬣狗这样的更简单的二次设计,通过简单的指导原则和对机械可解释性基准的评估,构成了高效大型模型的基础。
摩托罗拉AI 手机 moto X50 Ultra 将于 5 月 16 日发布
站长之家(ChinaZ.com)5月9日消息:摩托罗拉手机官方近日宣布,将在5月16日举办一场盛大的联想AIPC&AI手机发售体验会。届时,备受瞩目的“motoX50Ultra”AI手机将正式与公众见面,其独特的slogan“百倍热AI,所见皆美”更是预示着这款手机将为用户带来前所未有的智能体验和视觉盛宴。站长网2024-05-09 16:45:220000都2023年,还能做小红书代运营吗?
代运营一个自带诈骗属性的三个字,提起代运营,骗子、坑人等关键词必出现,更有甚者直接喊出,代运营狗都不理!代运营还有希望吗?在我看来,只要这世界还有商家在,代运营就能持续存在,它和广告、咨询公司统一属于服务行业。为什么品牌和策划公司、广告公司撕逼少?实则客户不懂、衡量标准不同,如策划公司设计个LOGO,客户也不知道对不对,先用了再说。0002支付宝上线40城“端午旅行打卡地图”,热门景点出行一键智能规划
端午将至,又适逢暑假,各地即将迎来出游高峰。为助力游客便捷出游、绿色出行,支付宝推出端午出行大礼包和全国40座热门旅游城市的“旅行打卡地图”,帮游客一键规划热门景点打卡出行路线,并提供乘坐公交地铁半价优惠;自驾车主可享受低至6折的租车折扣,以及加油、充电、代驾等各项优惠。站长网2023-06-20 16:11:210000一个能“干掉” ChatGPT 的应用「GitHub 热点速览」
据说有了它,ChatGPT就可以靠边站了。因为Auto-GPT能更加主动地完成你给他的指定任务,不用做更多的人为干涉,它的推理能力比ChatGPT更强,有人用它解放双手做了个React网站。当然除了升级的Auto-GPT之外,还有DeepSpeed,它能极大地降低训练成本。这两个项目可是本周的明星项目,一个获得50kstar,一个是10k。站长网2023-04-17 09:45:350000