微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
站长网2024-04-29 17:14:560阅
划重点:
⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 复杂微调
⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度
近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。

该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。
实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
0000
评论列表
共(0)条相关推荐
在Web3里「养」AI男友 链游《HIM》能攻略女玩家吗?
霸总、甜宠,虐恋、复仇,每集不到5分钟的各种爽剧,让观众直呼“狗血、土味又上头”。2023年,这类主打节奏快、反转多的短剧在短视频平台上创造出一个200亿元的内容市场,其中有一半内容主打女频。0001对标GPT4o!谷歌发布Project Astra,全民AI代理时代来啦
5月15日凌晨,谷歌召开“I/O2024”,生成式AI成为本次大会的重点并发布了一系列产品和多款大模型。其中,谷歌DeepMind发布了一款全新的AI代理(Agent)产品ProjectAstra,可以像昨天OpenAI发布的GPT4o一样,实现跨文本、音频、视频多模态实时推理。站长网2024-05-15 09:05:0300011.4亿钓鱼佬背后的生意:博主年入1亿,店家开业3月关门
1.4亿钓鱼佬,有望捧出“钓鱼第一股”。11月中旬,钓鱼装备制造商乐欣户外国际有限公司正式向港交所递交上市申请。如果顺利,这家公司有望成为资本市场第一家跟钓鱼相关的上市公司。根据弗若斯特沙利文的资料,按2023年的收入计算,乐欣户外是全球最大的钓鱼装备制造商,市场份额达到20.4%。其中,在中国钓鱼装备市场,乐欣户外的市场份额达到25.4%。0000阿里国际要靠AI破局
走过前两年的低价厮杀与托管模式混战后,在当前全球贸易大变局下,跨境电商行业风云变幻。要在未来的不确定性中,寻找增长的确定性,作为阿里旗下聚焦海外电商的业务板块,阿里国际数字商业集团(简称“阿里国际”)正在持续押注AI,希望助力商家走出“低价”竞争的漩涡,向“高附加值”转型。0000重磅!企微取消朋友圈曝光人数限制
现在,品牌商家在企业微信上发布朋友圈,将不再有曝光人数限制了。在使用企业微信最新4.1.26版本时,见实看到了这一重大调整。体验新版过程中,还发现支持批量删除“单向客户”、企微群防骚扰功能等多个实用功能推出。如果加上此前见实已提前和大家分享的群发条数的调整(延伸阅读:企微大调群发规则:1天最多可群发31次,但每月总数被限定),新版本不失为一个重大迭代。01企业不用再焦虑“达标”了站长网2024-06-03 19:25:210000