微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
站长网2024-04-29 17:14:560阅
划重点:
⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 复杂微调
⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度
近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。
该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。
实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
0000
评论列表
共(0)条相关推荐
OpenAI 打造媒体管理工具,让内容创作者可以选择退出 AI 训练
划重点:⭐OpenAI正在开发名为媒体管理(MediaManager)工具,让内容创作者可以指定其作品是否纳入AI研究和训练。⭐这一举措是为了回应对OpenAI数据采集方式的批评,同时保护知识产权和创作者利益。⭐除了OpenAI外,其他公司也在努力构建通用溯源和选择退出工具,以应对AI模型训练中的知识产权问题。站长网2024-05-08 21:42:480000日本利用AI匹配相亲局促进结婚率增长 以应对人口减少问题
划重点:⭐️日本利用人工智能分析个人信息以确定潜在伴侣的相容性。⭐️中央政府支持通过提供补贴来支持利用人工智能的公共相亲活动。⭐️一些地方政府甚至在匹配标准中包括互联网浏览历史,以寻求更深层次的相容性。站长网2024-02-28 11:54:220000苹果扎心!雷军公开吐槽iPhone不能通话录音:快换安卓吧
快科技7月20日消息,在昨晚的小米发布会上,雷军金句不断,其中有一些让iPhone用户听起来可能没有那么舒服。雷军在小米发布会上介绍了耳机的独立录音功能,在打电话的时候连续敲三下就开始录音。这是为iPhone用户设计的,其实我刚知道iPhone到今天为止还没有电话录音,我也惊讶。”雷军说道。0000瞄准“富贵闲人”,2款社交App月入百万美金
今年年初,TikTok在美国遭遇被禁风波,连带反应就是多个TikTok替代品下载量飙升。这些App自然都没有在榜单上停留太久,但编辑部近日发现,年初靠“TikTok替代品”热度短暂冲榜的Clapper,虽然在下载榜已经完全捞不起来了,但收入却在快速增长后依然保持稳定。ClapperApp页面站长网2023-11-09 09:02:56000015块钱40个菜,物美价廉还量大:全网打卡的“工地盒饭”,正在悄悄变味
网上一直有个传说:“中国最便宜又好吃的盒饭,不在酒店餐馆,而在工地食堂。”此言不虚。在短视频平台上,许多美食博主用镜头记录下了街边的流动盒饭,各式现炒热菜一字排开,大块大块的溜肉段、黄焖鸡、毛血旺、炸鱼块、凉拌菜等应有尽有,浓油赤酱,香味扑鼻,直叫人垂涎欲滴,物美价廉不说,竟然还贴心地送甜品、递饮料。站长网2023-04-17 13:57:050000