微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
站长网2024-04-29 17:14:560阅
划重点:
⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 复杂微调
⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度
近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。
该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。
实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
0000
评论列表
共(0)条相关推荐
MIT等惊人发现:全世界AI已学会欺骗人类!背刺人类盟友,佯攻击败99.8%玩家
【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现,AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。AI教父Hinton的担心,不是没有道理。他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。当被问及,人工智能怎么能杀死人类呢?站长网2024-05-14 14:17:380000知乎大模型「知海图AI」上线!产品官宣即内测,为4亿用户摘取「热榜摘要」
又一家国内企业大模型产品发布。不是别的,而是已拥有4亿用户的最大中文问答社区知乎。而且官宣即内测——不光有首个大语言模型「知海图AI」,首款产品也将应用于热榜。情理之中,意料之外。一方面,知乎拥有天然的大模型优势,有场景有应用,最关键的还有天然大规模、高质量的中文数据池。NewBing也将其视作中文数据源之一,一时间股价暴涨近50%。站长网2023-04-14 17:14:030000一个只发布AI生成内容的网站长啥样?充斥着标题党、奇怪的照片
人工智能生成的内容正在互联网泛滥,甚至可能让网络世界变成一个错误堆积、难以理解的信息场。不过也有纯粹用AI生成的内容给人类带来不少乐子,TheEnlightenedMindset网站就是其中一个。站长网2023-06-16 14:38:550000vivo X200系列定档10月14日发布 将搭载全新进化蓝心大模型
vivo宣布将于10月14日在北京举办新品发布会,届时将推出新一代旗舰手机X200系列。这一系列预计将包括X200、X200Pro等多款型号,并将全球首发联发科天玑9400处理器。vivoX200系列将配备1.5KOLED国产屏幕,并可能在Pro版上采用支持120Hz自适应刷新率的等深四曲直屏。此外,该系列手机有望继承X100Ultra的4K120fps视频录制功能,增强其视频录制能力。站长网2024-09-14 03:23:290000AI日报:Claude企业版上线;支付宝外滩大会将推支小宝等3款AI产品;Soul语音大模型惊艳到我了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Anthropic发布企业版AI助手ClaudeEnterprise站长网2024-09-07 12:48:270000