微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
站长网2024-04-29 17:14:560阅
划重点:
⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 复杂微调
⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度
近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。
该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。
实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
0000
评论列表
共(0)条相关推荐
神采PromeAI:可一键生成模特和炫酷文字效果
神采PromeAI是一款功能强大的AI驱动设计助手,拥有丰富的可控制AIGC(C-AIGC)模型风格库,能够轻松创建令人惊叹的AI艺术、图像、图形、视频和动画。PromeAI是业余爱好者、建筑师、室内设计师、产品设计师以及游戏/动画设计师的必备工具。体验地址:https://www.promeai.com/站长网2023-08-07 11:34:030000微软发布AI天气预测模型 能精准预报未来30天天气
微软Start团队近日宣布,他们开发出了一种全新的数据驱动AI天气预测模型,该模型能够准确预测未来30天的天气情况。这一研究成果不仅在预报准确率上取得了显著提升,同时在计算效率上也实现了巨大突破。论文地址:https://arxiv.org/pdf/2403.15598站长网2024-05-06 21:09:230000有人在用小绿书,在小红书偷内容……
分享一个我最近听到的“灰色玩法”……在我停更公众号的一年半,发生了三件大事儿:1、公众号的「小绿书*」上线了2、公众号的「算法推荐放量了」3、公众号可以通过「非群发」,多次推送*小绿书,特指在公众号后台,选择「图文/文字」形式进行发布(类似小红书图文笔记)的内容。这三件事儿的叠加,让一些对流量很敏感的“职业创作者”伺机而动,开始了一件“非常简单、不太光彩、能直接变现”的事情——站长网2024-08-21 14:14:480001这对中年“离婚搭子”,闯进了小红书买手榜第一
“没想到啊没想到,出道即巅峰!”7月8日,账号@有个男的叫老刘在小红书上发布了一条感谢笔记。当天不久前,他刚刚和张硕一起结束了他们的首场带货直播,直播总观看人数超过15万,期间一度冲到买手榜第一。和其他“名人”不同,首次在直播带货领域尝到“甜头”的老刘张硕切入的是一条小众且冷门的赛道——离婚赛道。站长网2024-08-22 18:15:490000