华人团队推出Medusa简单框架 可将LLM推理速度提高2倍
站长网2023-09-13 12:00:371阅
来自普林斯顿、UIUC等机构的华人团队提出一个用于加速大型语言模型(LLM)推理速度的简单框架Medusa,并于9月12日开源发布。测试结果显示,Medusa可以将LLM的生成效率提高约2倍。
Medusa是一个简单的框架,它让大家也可以使用多解码头技术来加速大型语言模型的生成。目前,许多热门的加速技术如speculative decoding都存在一些痛点,比如需要一个不错的draft模型作为基础,系统复杂度高,采样生成时效率不高等。
项目地址:https://github.com/FasterDecoding/Medusa
Medusa的方法是在原有的语言模型上增加额外的“解码头”,让每个头同时预测多个可能的未来词元。在使用Medusa增强模型时,原有的模型保持不变,仅新增的解码头在训练中进行微调。生成时,这些头并行产生多个可能的词,然后通过一种基于树的attention机制合并处理,最后使用一般的采纳策略从候选中挑选出最长的可信前缀进行解码。
研究人员通过以下几点设计,来解决speculative decoding存在的问题:
1) 不引入新的模型,仅在原模型上新增解码头,训练时参数效率高。
2) 生成时不需要严格匹配原模型的分布,使非贪婪生成甚至比贪婪解码还快。
第一个版本主要优化了每个batch只有一个样例的场景,也就是本地机器上常见的使用方式。在这种配置下,Medusa可以为Vicuna系列模型带来约2倍的加速。研究人员称正在积极扩展Medusa的应用场景,集成到更多的推理框架中,以获得更高的性能提升。
Medusa核心功能:
- 在现有语言模型上增加多解码头
- 高效训练参数
- 生成时树形attention机制合并多个预测
- 非贪婪生成模式下实现更快速度
0001
评论列表
共(0)条相关推荐
比尔·盖茨:ChatGPT、生成 AI已经达到顶峰,GPT-5不会有太大改进
文章要点:1.比尔·盖茨认为生成AI如ChatGPT已经达到顶峰,未来的GPT-5不会有太大改进。2.生成AI在今年一直是热门话题,但盖茨对这一技术的未来表达了一些担忧,认为其发展可能已经停滞。3.盖茨在接受采访时承认,虽然他对生成AI的未来发展持保留意见,但他也承认自己的评估可能有误。站长网2023-10-26 18:05:380000Hinton为拒马斯克offer扯谎挂电话,警告AI取代人类比想象中快30年
我和马斯克友尽了。GeoffreyHinton老爷子——图灵奖得主、深度学习发明人、AI三巨头、Ilya之师,在最新专访中透露出这个令人心碎的消息。就在这两天,Hinton接受了多家媒体的专访,既有老生常谈的内容,即他对AI发展安全的担忧;也有一些新的话题和八卦。他提到了老朋友马斯克,俩人一直以来都是AI威胁论的支持者。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-06-17 11:41:470000庄俊:小红书搜索流量杀疯了,70%蓝海入口在这里
│前言│2024年,新的生意增量去哪里找?品牌在做内容前,首先要有流量渠道,放大你的内容,所以,在内容曝光前,如何拿到更大、更精准流量是关键,和你的销售额直接挂钩。但是,通过最近跟很多学员沟通下来,他们将大部分钱花在做内容出爆款、找博主合作、投放等方式,进行引流和转化,甚至还有品牌开通了直播。这些都是在有了不错的流量后的动作。那么商家品牌们该怎么打破流量这一突破口呢?站长网2024-05-24 21:14:350002Cursor:强大的 AI 代码编辑器 可自动为代码注释
Cursor是一款基于GPT驱动的强大代码编辑器,旨在辅助程序员进行日常编码。通过智能注释、代码解释、代码生成和改写等功能,大幅提升程序员的编码效率和质量。无论是简化日常编码工作,还是解决特定领域的编码问题,Cursor都是一款可靠的工具选择。Cursor免费版提供每月100次使用机会,若需要更多功能,可选择付费版,每月10美元。官网地址:https://www.cursor.so/站长网2023-08-10 12:11:040004一群作家控告OpenAI和微软侵犯版权
🔍**划重点:**1.一组非虚构作品的作者对美国科技巨头Microsoft和人工智能(AI)公司OpenAI提起诉讼,声称这两家公司训练其AIChatGPT工具以未经其同意复制其作品。2.主张OpenAI和Microsoft未为AI复制其作品支付任何补偿,而这两家公司通过其AI产品的收入赚取数十亿美元。站长网2023-11-23 10:26:420000