斯坦福CMU提出新序列模型Mamba 性能优于Transformer
要点:
斯坦福 CMU 联合团队提出的 Mamba 是一种新的序列模型,击败了 Transformer 在语言、音频和 DNA 序列任务上的性能,具有线性复杂度和更高的推理吞吐量。
Mamba 的创新之处在于选择性处理输入信息、硬件感知的状态扩展和简化的 SSM 架构,使得模型能够在固定状态大小下压缩上下文并自适应调整行为。
Mamba 在 Chinchilla 缩放定律下预训练时,语言任务优于同类开源模型,并在下游任务上达到同类最佳性能,特别是在长序列情况下表现出优势。
斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为 Mamba,它在语言、音频和 DNA 序列等任务上超越了 Transformer 模型。Mamba 采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。与传统的注意力机制不同,Mamba 通过选择性处理输入信息,可以压缩上下文并自适应地调整行为。此外,Mamba 还利用了硬件感知的状态扩展技术,提高了在现代 GPU 上的计算效率。

在实验中,研究团队发现,Mamba 在 Chinchilla 缩放定律下进行预训练时,在语言任务上优于同类开源模型。此外,在下游任务上,无论是在小规模还是大规模的情况下,Mamba 都能够达到同类最佳性能。尤其是在处理长序列时,Mamba 相对于使用 FlashAttention 的 Transformer 模型具有更高的效率,而且不会出现内存不足的问题。
Mamba 的出现给 Transformer 模型带来了挑战。目前,Mamba 是第一个真正实现了与 Transformer 相当的性能,并且具有线性时间复杂度的序列模型。研究团队还表示,他们将继续探索 Mamba 在 Transformer 等大模型生态系统中的适用性,包括微调、自适应、提示学习等方面的研究。此外,团队还提到了扩展 Mamba 的挑战和工程调整,以及验证 Mamba 在更大规模下的性能。
综上所述,Mamba 作为一种新的序列模型,通过选择性处理输入信息和硬件感知的状态扩展技术,实现了与 Transformer 相当的性能,并在一些任务上表现出更高的效率。Mamba 的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。
超头部主播双11混战,谁是最大赢家?
第15个双11正式收官,同去年一样,阿里、京东等平台不再官宣最终销售额,战报公布的是用户规模,品牌破千万、过亿成交额数量等。除了平台的数据,另一个值得注意的是电商直播间。李佳琦、谦寻、辛巴、交个朋友、东方甄选、疯狂小杨哥等超头部主播/直播间,跟双11预售首日低价混战、轮番上头条的热闹相比,似乎有点高开低走。站长网2023-11-13 21:47:410000谷歌将于 12 月 1 日开始删除不活跃的 Gmail 帐户
据PCMag的报道,谷歌计划于12月1日起删除不活跃的Gmail帐户和照片。非活跃帐户被定义为两年内未使用的帐户,包括未登录、未发送或阅读邮件、未使用云端硬盘、未观看YouTube视频、未分享照片、未下载应用程序以及未进行登录时搜索活动。站长网2023-11-13 21:42:380000李想:《飞驰人生2》零尿点太好看了、强推4D座椅票
快科技2月11日消息,春节档电影已经上映,截至目前,几部热门影片的首波口碑和评分均已经出炉,据豆瓣电影平台数据显示,《飞驰人生2》以8.1分的高分成为截至目前本档期评分最高的作品。该电影由韩寒导演、沈腾主演,目前已经收获了超过9700条豆瓣影评。站长网2024-02-12 09:02:220000新款iPhone15Pro/Pro Max异常发热 苹果称软件Bug导致
昨日,数百名用户在社交媒体平台和苹果公司的支持部门投诉称,他们新买的iPhone15Pro和iPhone15ProMax摸起来异常发热。有些用户甚至发布了iPhone温度计的照片,显示温度远远超过100华氏度(约38摄氏度)。对此,苹果公司周六回应称,关于新款iPhone过热的说法是由软件错误导致的,他们正在尽快修复。站长网2023-10-01 21:51:100000研究表明 ChatGPT 可以比人类更准确地预测股票价格走势
人工智能正在改变各个行业,金融领域也不例外。美国佛罗里达大学的研究人员最近进行的一项研究表明,大型语言模型驱动的人工智能ChatGPT可以使用新闻标题的情感分析来准确预测股票市场的回报。站长网2023-05-12 20:29:120000