复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens
要点:
1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。
2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。
3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。
复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。
目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。
论文地址:
https://arxiv.org/abs/2310.05209
Github仓库:
https://github.com/OpenLMLab/scaling-rope
研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。
在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。
LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。
为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。
这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。
总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。
华为徐直军:Mate70销售时有望带着纯血鸿蒙上市
华为副董事长、轮值董事长徐直军在近日举行的第21届华为分析师大会上坦言,鸿蒙原生应用生态的建设确实面临着重重挑战。他强调,除了关键应用外,还需要再引入5000个应用,并计划未来进一步将应用数量增至100万个。他特别强调,这些应用不仅需要成功上线,而且必须为消费者提供卓越的使用体验。站长网2024-04-19 09:05:070000直击618开局:李佳琦稳定发挥,辛巴杠上榴莲,小红书明星主播奇袭
李佳琦在直播间敲响锣鼓,今年618大促正式拉开帷幕。“10万了,疯了”“好夸张,太夸张了”……5月26日预售当晚,面对刚上链接就被爆买的多个产品,连李佳琦本人都发出感慨。预售倒计时的李佳琦和助播团据新榜编辑部不完全统计,整场直播累计上架338个单品链接,至少30个单品的销量超过10万件,19个单品直接库存售罄,按照商品页面显示的成交价格来算累计销售额预估超44亿元。站长网2023-05-27 14:48:330001元象XVERSE多模态数字人上线
元象XVERSE宣布推出多模态数字人,其多模态数字人方案具有以下特点:形象逼真、能听会道、灵活生动和情智兼备。在形象逼真方面,元象通过自研的渲染引擎和制作模块,实现了高品质的皮肤渲染、逼真的头发和眼球效果,以及真实的布料光照。在能听会道方面,元象提供了语音识别、全双工语音交互和语音合成等一站式服务,实现了准确快速的语音识别和自然流畅的语音交互。站长网2023-11-23 12:05:050002现场参加了OpenAI的大会,我感觉属于上个时代的开发者被干掉了
OpenAI这场注定载入人类科技史册的发布会已过去一天,但显然它的后劲很大,人们依然在尝试理解它的意义。铺天盖地的分析和梳理很多,而一手信息同样重要。《硅星人》和现场参加了大会的开发者聊了聊,整理了这份自述,它可能可以帮助我们更好的理解发生了什么。站长网2023-11-10 17:05:110000