复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens
要点:
1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。
2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。
3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。
复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。
目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。
论文地址:
https://arxiv.org/abs/2310.05209
Github仓库:
https://github.com/OpenLMLab/scaling-rope
研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。
在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。
LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。
为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。
这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。
总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。
思科发布首个AI就绪指数:加拿大仅有9%企业做好准备
###划重点:1.💼**企业准备度不足:**加拿大只有9%的组织充分准备好部署和利用人工智能技术,其中一半以上的企业承认未来12个月内不采取行动将对业务产生严重影响。2.🌐**紧迫性和挑战:**55%的企业表示最多只有一年时间来实施人工智能战略,但面临基础设施、数据隔离、人才培养等多方面的挑战,其中83%的受访者承认组织内存在数据孤岛。站长网2023-11-15 20:22:030000苹果称iPhone保值率超安卓至少40%
站长之家(ChinaZ.com)6月27日消息:在今日发布的一份白皮书中,苹果详细阐述了其产品的保值率优势。该公司指出,与安卓手机相比,iPhone的保值率显著领先,至少高出40%。更值得一提的是,随着机型的老化,旧款iPhone与同期安卓机型在保值率上的差距愈发明显。站长网2024-06-27 14:09:310001从挖矿到AI战争,英伟达为什么可以一直赢?
「原以为字节跳动14万月薪已经到顶了,看到英伟达员工纳税记录才知道什么是打工届天花板!」不怪有网友如此感叹,日前流出的一张纳税记录截图显示,一位英伟达(上海)员工2021年的收入合计达到近1122万元,已申报税额也达到了456万元(不代表个人缴纳税额)。对比当下的就业市场,很难不羡慕。站长网2023-04-21 14:16:420000小红书账号为什么违规?如何自检?怎么解决,一次性讲完!
没流量、违规是经常被问到的问题,经常是甩过来一张小红书推送的违规截图说“江河,快快快帮我看下,我这个笔记怎么又显示违规了,我明明什么也没做啊!为什么总是判定我违规了还给我限流!图1:小红书违规图片提醒今天就重点讲下小红书违规限流的征兆、违规原因以及解决办法,当你身边的朋友说账号的违规的时候,可直接转发给他。以下内容来自小红书品牌营销26讲。一、违规征兆违规主要有账号和笔记两种违规;站长网2023-12-01 16:38:450000商汤升级发布医疗健康大模型“大医” 支持高质量训练低门槛部署
商汤科技发布了升级版医疗健康大语言模型“大医”,并正式向医疗健康产业链上下游机构客户提供服务。该模型包含13个预设场景,支持个性化功能,高质量训练和低门槛部署。商汤已与多家医疗机构合作,实现“大医”在具体医疗健康场景中的落地。商汤表示,“大医”不仅服务于医院,也希望能覆盖整个医疗健康产业链。商汤还将与营养保健、健康管理等领域的企业、机构合作,为企业服务数智化转型提供强大驱动力。站长网2023-10-16 14:39:410000