斯坦福CMU提出新序列模型Mamba 性能优于Transformer
要点:
斯坦福 CMU 联合团队提出的 Mamba 是一种新的序列模型,击败了 Transformer 在语言、音频和 DNA 序列任务上的性能,具有线性复杂度和更高的推理吞吐量。
Mamba 的创新之处在于选择性处理输入信息、硬件感知的状态扩展和简化的 SSM 架构,使得模型能够在固定状态大小下压缩上下文并自适应调整行为。
Mamba 在 Chinchilla 缩放定律下预训练时,语言任务优于同类开源模型,并在下游任务上达到同类最佳性能,特别是在长序列情况下表现出优势。
斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为 Mamba,它在语言、音频和 DNA 序列等任务上超越了 Transformer 模型。Mamba 采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。与传统的注意力机制不同,Mamba 通过选择性处理输入信息,可以压缩上下文并自适应地调整行为。此外,Mamba 还利用了硬件感知的状态扩展技术,提高了在现代 GPU 上的计算效率。
在实验中,研究团队发现,Mamba 在 Chinchilla 缩放定律下进行预训练时,在语言任务上优于同类开源模型。此外,在下游任务上,无论是在小规模还是大规模的情况下,Mamba 都能够达到同类最佳性能。尤其是在处理长序列时,Mamba 相对于使用 FlashAttention 的 Transformer 模型具有更高的效率,而且不会出现内存不足的问题。
Mamba 的出现给 Transformer 模型带来了挑战。目前,Mamba 是第一个真正实现了与 Transformer 相当的性能,并且具有线性时间复杂度的序列模型。研究团队还表示,他们将继续探索 Mamba 在 Transformer 等大模型生态系统中的适用性,包括微调、自适应、提示学习等方面的研究。此外,团队还提到了扩展 Mamba 的挑战和工程调整,以及验证 Mamba 在更大规模下的性能。
综上所述,Mamba 作为一种新的序列模型,通过选择性处理输入信息和硬件感知的状态扩展技术,实现了与 Transformer 相当的性能,并在一些任务上表现出更高的效率。Mamba 的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。
华为美团强强联手 鸿蒙原生应用加速落地
华为近日与美团达成战略合作,计划基于自主研发的鸿蒙操作系统开展产业、技术、商业等全方位合作。这标志着鸿蒙生态迎来重量级合作伙伴,将有助推动鸿蒙原生应用加速落地。根据协议,华为将全力协助美团开发面向鸿蒙系统的原生应用,使美团业务能够实现手机、平板、车载设备等多端无缝连接。鸿蒙的分布式设计和多端部署优势,将为美团提供智能化、场景化的新体验。站长网2023-11-14 10:06:050000AI日报:阿里推多角色一致性框架UniPortrait;腾讯混元上线三款ControlNet插件;苹果研发桌面机器人;Claude推提示词缓存功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里团队推新框架UniPortrait:支持多角色一致性和风格参考站长网2024-08-16 08:30:460000腾讯辟谣进军房地产:新增房地产项目仅满足内部园区需求
根据腾讯内部人士的消息,腾讯科技(深圳)有限公司近日在经营范围中新增了房地产开发经营的项目,但该公司内部人士表示,这并不意味着腾讯正在进军房地产业务,而是为了满足正在建设的新园区项目的开发需求。这个新园区项目名为大铲湾,将包括办公物业、会议中心、商业等公共配套设施。因此,腾讯需要补充相关资质以符合法规要求。站长网2023-07-26 17:08:270000阿里云:通义千问API日调用量破亿 企业用户破9万
在今日的阿里云AI智领者峰会上,阿里云首席技术官(CTO)周靖人揭晓了一项令人瞩目的数据:通义千问的API日调用量已强势突破亿次大关,企业用户数也成功跃过9万家,开源模型下载量更是达到了惊人的700万次。站长网2024-05-09 16:42:490001Meta开放Horizon OS 引发新一轮头显和元宇宙热潮
站长之家(ChinaZ.com)4月23日消息:近日,Meta创始人扎克伯格宣布,Meta将开放支持Quest的操作系统MetaHorizonOS,允许其他公司基于其生态系统设计更多头戴显示器。联想、微软和华硕等科技巨头都是Meta的首批合作伙伴。站长网2024-04-23 15:12:420001