华人团队推出Medusa简单框架 可将LLM推理速度提高2倍
站长网2023-09-13 12:00:371阅
来自普林斯顿、UIUC等机构的华人团队提出一个用于加速大型语言模型(LLM)推理速度的简单框架Medusa,并于9月12日开源发布。测试结果显示,Medusa可以将LLM的生成效率提高约2倍。
Medusa是一个简单的框架,它让大家也可以使用多解码头技术来加速大型语言模型的生成。目前,许多热门的加速技术如speculative decoding都存在一些痛点,比如需要一个不错的draft模型作为基础,系统复杂度高,采样生成时效率不高等。
项目地址:https://github.com/FasterDecoding/Medusa
Medusa的方法是在原有的语言模型上增加额外的“解码头”,让每个头同时预测多个可能的未来词元。在使用Medusa增强模型时,原有的模型保持不变,仅新增的解码头在训练中进行微调。生成时,这些头并行产生多个可能的词,然后通过一种基于树的attention机制合并处理,最后使用一般的采纳策略从候选中挑选出最长的可信前缀进行解码。
研究人员通过以下几点设计,来解决speculative decoding存在的问题:
1) 不引入新的模型,仅在原模型上新增解码头,训练时参数效率高。
2) 生成时不需要严格匹配原模型的分布,使非贪婪生成甚至比贪婪解码还快。
第一个版本主要优化了每个batch只有一个样例的场景,也就是本地机器上常见的使用方式。在这种配置下,Medusa可以为Vicuna系列模型带来约2倍的加速。研究人员称正在积极扩展Medusa的应用场景,集成到更多的推理框架中,以获得更高的性能提升。
Medusa核心功能:
- 在现有语言模型上增加多解码头
- 高效训练参数
- 生成时树形attention机制合并多个预测
- 非贪婪生成模式下实现更快速度
0001
评论列表
共(0)条相关推荐
“西湖心辰”获“汤姆猫”过亿元战略投资 正式推出“西湖大模型”
近日,“西湖心辰”宣布获得“汤姆猫”战略投资,投资金额超过亿元。此次融资后,西湖心辰将与汤姆猫加速在通用大模型、垂直领域模型及终端软硬件等方面的合作。汤姆猫表示,与其他大模型相比,西湖大模型具备长期记忆、情感感知和主动对话等功能,并且融合了文字、图片、语音等多种模态,与汤姆猫的场景和未来规划高度契合。双方正在加速大模型的应用落地,共同推出汤姆猫系列产品,实现听、看、说、教学和陪伴的功能。站长网2023-07-10 18:31:480000补贴战升级,“价格力”火拼,这届618真的成了卷王?
作为消费复苏后的首场大促,今年618被众多网友戏称为“史上价格最卷”的一届。翻看各大电商平台的促销宣传,几乎都离不开“低价”二字,且今年的活动完全抛开了以往十分“烧脑”的数算模式,主要以直降、折扣、满减等形式展开,甚至百亿补贴力度大到可以赞一句“白给”。毕竟,此前谁能想到只花155元就可以在京东618期间买到4斤冰岛海参?站长网2023-06-20 16:17:540000苹果应用商店崩了上热搜 网友反馈无法下载App
10月16日晚,苹果AppStore应用商店遭遇了全球范围内的崩溃事件,导致大量用户无法下载新的应用程序。尽管应用更新功能未受影响,但用户在社交平台上纷纷反馈了无法下载App的问题。0000Nothing Phone (2)正式发布 售价 600 美元起
昨日,NothingPhone(2)正式发布,8GB128G版售价为600美元,12GB256GB版售价为700美元,12GB512GB版售价为800美元。它不仅延续了NothingPhone(1)的设计风格,还在其基础上进行了改进,带来了更加出色的外观和性能。站长网2023-07-12 14:30:230000新孵6个千万GMV直播间,疯狂小杨哥开启“疯狂矩阵”
最近,疯狂小杨哥在抖音开启了疯狂串场模式。疯狂小杨哥和哥哥疯狂大杨哥兵分两路,一会儿出现在嘴哥、乔妹eve等签约主播的直播间,一会儿闪现到“三只羊网络”“三只羊网络水果生鲜”等矩阵直播间。图源:抖音作为目前抖音粉丝量最多的个人网红,坐拥1.12亿粉丝的疯狂小杨哥正在疯狂引流,布局直播矩阵。(延伸阅读:《4年涨粉7200万,“抖音第一网红”的疯狂宇宙》)孵化6个千万GMV直播间,站长网2023-05-18 16:47:130003