复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens
要点:
1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。
2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。
3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。
复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。
目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。

论文地址:
https://arxiv.org/abs/2310.05209
Github仓库:
https://github.com/OpenLMLab/scaling-rope
研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。
在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。
LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。
为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。
这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。
总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。
AI视野:百度希壤与高通达成合作;gpt4最强对手claude pro上线;快手内测AI文生图功能;Vercel发布界面生成器v0.dev
🤖📱💼AI应用gpt4迎来最强对手,claudepro正式上线Anthropic推出面向消费者的高级订阅计划ClaudePro,该计划每月收费20美元,相比于免费版Claude2,拥有更多的使用量、早期访问新功能的权限和更强大的上下文处理能力。然而,与ChatGPTPlus相比,ClaudePro在信息准确性方面稍逊一筹。要点:站长网2023-09-15 16:28:350000淘宝天猫开启“宝藏人气店铺”内测 计划邀请5万商家参与
千牛头条官方账号透露,淘宝天猫4月底开启“宝藏人气店铺”计划的内测,鼓励商家加大在私域的投入,让不断为消费者提供更好消费场景的商家,得到更多的支持回报。站长网2023-06-09 23:45:260000年轻人逛商场只去B1B2了!
年轻人到底喜欢买什么?这可能是品牌探讨的共同话题。除了平台、品牌的数字化消费报告/浏览习惯等信息能够反应出大多数年轻人的消费倾向外,社交平台的热搜榜或也透露出了年轻人的共同选择。比如前不久,因年轻人“报复性省钱”的行为产生的反向消费现象,就产生了广泛的热议,积累了3.8亿阅读。这反应出年轻人在选择产品的过程中,并不是从单一的信息考量,而是根据品质、性价比等多重信息来决定自己的消费行为。站长网2023-11-04 10:28:550000iPhone 15 Pro DXOMARK影像总分154 位列第二
近日,评测机构DXOMARK公布了iPhone15Pro的影像得分,该机与iPhone15ProMax的影像得分相同,均为154分,并列DXOMARK影像排行榜的第二名,仅次于华为P60Pro。站长网2023-10-10 08:38:100000两部门:组织开展「5G+智慧旅游」应用试点项目申报工作
据文旅部官网消息,为推动5G在文化和旅游领域创新应用和协同发展,文化和旅游部、工业和信息化部决定联合开展「5G智慧旅游」应用试点项目申报工作。站长网2023-08-09 14:54:170000