微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
站长网2024-04-29 17:14:560阅
划重点:
⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 复杂微调
⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度
近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。

该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。
实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
0000
评论列表
共(0)条相关推荐
谷歌 Pixel 8 的换脸照片工具引发人工智能操纵争论
站长之家(ChinaZ.com)10月23日消息:现如今利用手机上的数字工具对照片进行实时编辑已经成为了一种普遍现象,从增强颜色到调整光线水平等。如今,一种新型的基于人工智能(AI)的智能手机工具让我们重新思考什么是「拍摄现实」。上周发布的谷歌最新智能手机Pixel8和Pixel8Pro,比其他公司的设备走得更远,它们使用AI帮助改变照片中人物的表情。站长网2023-10-24 21:25:100000Salesforce宣布公开测试AI助手Einstein Copilot
划重点:⭐️Salesforce推出EinsteinCopilot,一款定制化的对话式AI助手。⭐️EinsteinCopilot支持SalesCloud和ServiceCloud,CommerceCloud和MarketingCloud将于2024年后提供。⭐️EinsteinCopilot目前支持美国数据存储和英语语言。站长网2024-02-28 14:55:170000汇丰银行人工智能负责人加入摩根大通 担任市场运营应用 AI 负责人
汇丰银行的市场和证券服务部门的人工智能(AI)负责人已经离职,加入竞争对手摩根大通。据TRADE透露,AshBooth在担任数据科学职位的九年间一直在汇丰银行工作,现已加入摩根大通银行,担任市场运营的应用AI负责人。站长网2023-07-05 19:09:1200012023年,超级APP的升与降
互联网世界的横纵之争。多年前,王兴曾在饭否分享过这样一个案例:不列颠空战中,英德双方都大大地高估了他们击落的对方飞机的数量。这些数字在战后被调整到了更加符合实际的水平……最近提出的一份可靠的估计是,英国损失了1547架飞机,纳粹德国则损失了1887架飞机。“看来,高水平对决时,谁也不比谁高明太多,就看谁家底更厚,谁更铁了心。”0000IBM 股价飙升,人工智能需求推动收入超预期
划重点:-IBM第四季度营收增长4%,其中人工智能产品和服务以及混合云需求是推动因素之一。公司还表示今年的自由现金流将会改善。-IBM每股收益为3.87美元,超过华尔街预期的3.76美元平均值,营收为174亿美元,超过第四季度预测的172.9亿美元。-IBM的咨询业务增长最快,销售额增长了5.8%,达到50亿美元,但低于一些分析师的预期。软件业务中,安全领域的销售萎缩了5%。站长网2024-01-26 11:27:180000