首页站长资讯复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

站长网2023-10-21 17:13:410阅

要点:

1. 复旦大学和上海人工智能实验室的研究团队发现，通过微调RoPE位置编码中的旋转角底数（base）这一超参数，可以显著提升大型模型的上下文长度，实现外推能力的稳定提升。

2. 他们提出了一套RoPE外推的缩放法则，可以根据预训练和续训文本长度来预测大模型的支持的上下文长度，并调整旋转角底数以提升外推表现。

3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度，增强外推能力，为自然语言处理等领域的应用提供更多潜力。

复旦大学和上海人工智能实验室的研究团队在一项新研究中，揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数，显著扩展大型模型的上下文长度，从1.6万tokens延长至100万tokens，同时提升外推能力。这个超参数被称为旋转角底数（base），在RoPE位置编码中起着关键作用。

目前，大型模型如Claude2和GPT-4在支持上下文长度方面存在限制，不超过10万和3.2万tokens，一旦超出这些限制，模型会表现出困难和混乱。这项研究的发现有望解决这一问题，提供更大的上下文窗口长度以应对更复杂的任务。

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

研究的核心在于RoPE位置编码，它是Transformer架构的一部分，用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果，但与相对位置编码相比，它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力，包括代表研究如ALiBi、xPos、BCA等，以及MIT提出的StreamingLLM，可以实现无限的输入长度;二是调整旋转角，代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法，通过微调旋转角底数，成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”，使大型模型的外推表现更出色。然而，现有的研究仅在特定的旋转角底数和续训长度上进行微调，缺乏通用规律，以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律，复旦大学和上海AI研究院的研究人员进行了实验，他们分析了影响RoPE外推能力的各种参数，提出了“临界维度”（Critical Dimension）的概念，并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律，可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度，然后相应地微调旋转角底数，以提升外推表现。

这项研究的实验结果显示，根据这一规律，大型模型能够在输入长度为10万、50万甚至100万tokens的情况下，实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说，这项研究为大型模型提供了一种通用的方法，通过微调RoPE位置编码的超参数，轻松扩展上下文窗口长度，增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能，并提供更多应用潜力。

复旦研究团队揭示RoPE位置编码微调法则LLaMA2上下文长度暴涨至100万tokens

0000

评论列表

共(0)条

相关推荐

站长资讯
小米汽车备案xiaomiev.com网站：已获批准生产 2024年上半年正式上市
小米汽车最新进展来了。快科技8月23日消息，近日，小米汽车科技有限公司登记备案xiaomiev.com”网站域名。公司成立于2021年11月，法定代表人为雷军，注册资本10亿人民币，经营范围包括技术开发、新能源车整车制造、汽车整车及零部件的技术研发、道路机动车辆生产等，由小米科技有限责任公司全资持股。
站长网2023-08-24 16:51:32
0000
站长资讯
神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观
这场等待「GPT-5」的游戏啥时候才能结束?GPT-5啥时候来?估计是AI领域最关心的问题之一了。是像Sora一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。
站长网2024-05-01 15:06:59
0000
站长资讯
腾讯发布2023年第三季度财报：营收1546亿元同比增长10%
腾讯控股公布2023年第三季度财报称，该季度其营收达到了1546亿元，同比增长10%。净利润下滑9%，为361.8亿元。其中，增值服务收入为757.48亿元，同比增长了4%。国际市场游戏收入增长了14%，达到了133亿元;本土游戏收入增长了5%，达到了327亿元;而社交网络收入则保持稳定，为297亿元。
站长网2023-11-15 19:51:49
0000
站长资讯
首款接入ChatGPT的手机！曝传音开始内测AI语音助手：流畅对话
快科技6月3日消息，今年因为ChatGPT的走红，AI概念非常受关注，主要是因为ChatGPT实现了完全不同以往的智能，可以连续对话，回答各种问题，就像钢铁侠电影里的贾维斯。而对比国内的小爱同学、小度等AI助手，ChatGPT仿佛实现了降维打击，完全不是一个级别。但如今，有手机厂商要将ChatGPT放在手机里当语音助手了。
站长网2023-06-03 15:40:26
0000
站长资讯
马斯克的AI项目命名为TruthGPT 号称理解宇宙本质真相
近日，在接受福克斯新闻专访时，马斯克透露，他将启动自己版本的人工智能聊天机器人“TruthGPT”。马斯克表示“我将开始一些我称之为TruthGPT的东西，或者是一个试图理解宇宙本质的最大真相人工智能，而且我认为这可能是通往安全的最佳途径，因为一个关心了解宇宙的人工智能不太可能消灭人类，因为我们是宇宙中有趣的一部分。”
站长网2023-04-18 09:16:19
0002