预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队
小羊驼团队的新研究火了。
他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。
比如这是同一个模型(LLaMa-2-Chat7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:
左边为原算法,耗时18.12s,每秒约35个token;
右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。
简单来说,这是一种并行解码算法,名叫“Lookahead Decoding”(前向解码)。
它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性(众所周知,当下大模型基本都是基于自回归的Transformer)。
由此无需草稿模型(draft model)或数据存储,就可以减少解码步骤,加速LLM推理。
目前,作者已给出了与huggingface/transformers兼容的实现,只需几行代码,使用者即可轻松增强HF原生生成的性能。
有网友表示:
该方法实在有趣,没想到在离散设置上效果这么好。
还有人称,这让我们离“即时大模型”又近了一步。
具体如何实现?
加速自回归解码的重要性
不管是GPT-4还是LLaMA,当下的大模型都是基于自回归解码,这种方法下的推理速度其实是非常慢的。
因为每个自回归解码步骤一次仅生成一个token。
这样一来,模型输出的延迟有多高就取决于回答的长度。
更糟的是,这样的操作方式还浪费了现代GPU的并行处理能:GPU利用率都很低。
对于聊天机器人来说,当然是延迟越低,响应越快越好(尤其面对长序列答案时)。
此前,有人提出了一种叫做推测解码的加速自回归解码的算法,大致思路是采用猜测和验证策略,即先让草稿模型预测几个潜在的未来token,然后原始LLM去并行验证。
该方法可以“凭好运气”减少解码步骤的数量,从而降低延迟.
但也有不少问题,比如效果受到token接受率的限制,创建准确的草稿模型也麻烦,通常需要额外的训练和仔细的调整等。
在此,小羊驼团队提出了一种的新的精确并行解码算法,即前向解码来克服这些挑战。
前向解码打破顺序依赖性
前向解码之所以可行,是作者们观察到:
尽管一步解码多个新token是不可行的,但LLM确实可以并行生成多个不相交的n-grams——它们可能适合生成序列的未来部分。
这可以通过将自回归解码视为求解非线性方程,并采用经典的Jacobi迭代法进行并行解码来实现。
在过程中,我们就让生成的n-grams被捕获并随后进行验证,如果合适就将其集成到序列中,由此实现在不到n个步骤的时间内生成n个token的操作。
作者介绍,前向解码之所以能够“脱颖而出”,主要是因为它:
一不需草稿模型即可运行,简化了部署。
二是相对于每步 log(FLOPs)线性减少了解码步骤数,最终在单个GPU、不同数据集上实现快1.5倍-2.3倍的token数预测。
更重要的是,它允许分配更多(大于1个GPU)的 FLOP,以在对延迟极其敏感的应用程序中实现更大程度地延迟下降,尽管这会带来收益递减。
下面是具体介绍:
1、前向解码的动机Jacobi在进行求解非线性系统时,一并使用定点迭代方法一次性解码所有的未来token。
这个过程几乎看不到时钟加速。
2、前向解码通过收集和缓存Jacobi迭代轨迹生成的n-grams来利用Jacobi解码的能力。
下图为通过Jacobi解码收集2-grams,然后验证并加速解码的过程。
3、每个解码步骤有2个分支:
前向分支维护一个固定大小的2D窗口,以根据Jacobi轨迹生成n-grams;验证分支验证有希望的n-grams。
作者实现了二合一atten mask,以进一步利用GPU的并行计算能力。
4、前向解码无需外部源即可立即生成并验证非常多的n-grams。这虽然增加了步骤的成本,但也提高了接受更长n-grams可能性。
换句话说,前向解码允许用更多的触发器来减少延迟。
5、作者检查了flops vs 延迟减少之间的缩放行为,并找到了缩放法则:
当n-grams足够大时(比如11-gram),以指数方式增加未来的token猜测(即窗口大小)可以线性减少解码步骤数。
作者介绍
本方法作者一共4位,全部来自小羊驼团队。
其中有两位华人:
傅奕超以及张昊,后者博士毕业于CMU,硕士毕业于上交大,现在是加州大学圣地亚哥分校助理教授。
参考链接:
[1]https://twitter.com/lmsysorg/status/1727056892671950887
[2]https://lmsys.org/blog/2023-11-21-lookahead-decoding/
[3]https://github.com/hao-ai-lab/LookaheadDecoding
小米汽车APP登顶苹果App Store免费榜
小米汽车旗下的SU7车型于3月28日正式发布并上市,而在其发布前夕,小米汽车App已经于3月25日提前上架苹果AppStore,并迅速登陆各大安卓应用商店。令人瞩目的是,小米汽车App在极短时间内便成功登顶苹果AppStore免费榜,充分显示了市场对小米汽车的期待与关注。站长网2024-04-06 14:16:150000百度文心一格推出图片涂抹编辑、风格叠加等AIGC功能
百度宣布,AI作画产品文心一格“二次编辑”功能上线。通过AI技术结合创作者的需求对图像进行二次编辑优化,使得画作更加精准的符合用户创意需求,创作优质画作。据介绍,用户只需通过涂抹等形式确定原画作中待编辑和加工的区域;接着调用人工智能AI编辑功能,获取整幅画作的编辑信息;最后对编辑区域的内容进行与原画风格一致的补全编辑,并对补全画作连接处进行平滑处理,最终即可生成满足用户需求和审美的理想画作。站长网2023-07-05 20:58:020000百度文心一言上线新功能「智能配图」 会员用户可无限次使用
百度文心一言宣布推出全新功能「智能配图」。用户在回答后新增了【智能配图】按钮,适用于文本创作场景。据了解,目前文心一言会员用户可以无限次使用,而非会员则可以免费体验三次。2024年4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表示,文心一言用户数已超2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过19万。站长网2024-05-24 10:42:480000埃隆・马斯克因用太空垃圾充满轨道而受到抨击
最近,随着SpaceX公司推出超过6000颗Starlink互联网卫星,并计划未来增加到多达42000颗,关于这些卫星对地球环境影响的讨论愈发激烈。尽管这些卫星为全球互联网覆盖提供了便利,但它们在低地球轨道的存在也引发了不少担忧。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-08-13 09:44:190000淘宝开工免单上热搜 春装免单活动上线
春节长假后的首个工作日,淘宝为广大网友送上了一份特别的惊喜——春装免单活动火热上线。从2月18日至2月24日,只要在淘宝搜索“春装免单”,就有机会赢取免单大奖,让你的春日衣橱焕然一新!攻略一:逛店铺,轻松赢免单!走进淘宝服饰的精选店铺,浏览店铺首页,即有机会获得免单资格。攻略二:细品商品,免单随手可得!深入淘宝服饰的商品详情页,仔细浏览每一款商品的细节,你的每一次点击都有可能触发免单大奖。站长网2024-02-19 10:26:410000