YaRN:可高效扩展现有大模型的上下文窗口长度
要点:
1、YaRN是一种计算高效的方法,可以扩展基于 transformer 的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的 token 和2.5倍更少的训练步骤。
2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。
3、实验表明,YaRN只需要400个训练步骤就能成功实现语言模型的上下文窗口扩展,相比之前的方法降低了10倍的训练样本量和2.5倍的训练步骤。
大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。
Rotary position embedding(RoPE)增强了模型处理顺序数据和捕获序列中位置信息的能力。然而,这些模型必须超越它们所训练的序列长度进行泛化。
Nous Research、Eleuther AI和日内瓦大学的研究人员提出了YaRN (又一个RoPE扩展方法),该方法可以高效地扩展现有语言模型的上下文窗口长度。
项目地址:https://github.com/jquesnelle/yarn
RoPE使用复杂数旋转,这是一种有效的编码位置信息的旋转式位置嵌入,使模型能够在不依赖固定的定位嵌入的情况下有效地编码位置信息。这将帮助模型更准确地捕捉长期依赖关系。控制旋转参数是在模型的训练过程中学习的。模型可以自适应地调整旋转以最好地捕捉标记之间的位置关系。
他们采用的方法是压缩变换器,它使用外部记忆机制来扩展上下文窗口。它们从外部存储库中存储和检索信息,使其能够访问超出其标准窗口大小的范围。已经开发了将记忆组件添加到转换器架构的扩展,使模型能够保留和利用来自过去标记或示例的信息。
他们的实验表明,YaRN成功地实现了具有仅400个训练步骤的LLMs的上下文窗口扩展,这是原始预训练语料库的0.1%,比25减少了10倍,比7减少了2.5倍的训练步骤。这使得它在没有任何额外推理成本的情况下高度计算高效。
总的来说,YaRN改进了所有现有的RoPE插值方法,并以无缺点和最小的实施努力替换PI。微调的模型在多个基准上保持了其原有的能力,同时能够关注非常大的上下文范围。未来的研究工作可以涉及内存增强,这可以与传统的自然语言处理模型结合使用。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息,用于下游任务如问答或机器翻译。
研发“内讧”,汤达人演绎教科书级反向广告!
最近,汤达人研发“内讧”的消息在网络上走红,起因是汤达人的新品米线上线后,在其包装上印上了「汤达人研发人员认为:汤达人肥汁米线比汤达人日式豚骨更好!」,引发了大众猜想:是不是汤达人这两大产品部门关系不好。在汤达人包装被网友“曝光”后,产生了一阵热议,有人抱着看热闹的心态表示:两个部门真的不会打起来么?有人对产品的味道产生了浓厚的兴趣,表示:会两个都买,然后对比一下。站长网2023-05-13 10:32:200000SK 海力士预期人工智能热潮将推动芯片业务增长,第三季度亏损显著收窄
韩国的SK海力士在公布了第三季度亏损显著收窄的消息后,表示人工智能的繁荣将推动芯片业务的利润增长。该公司指出,强劲的AI芯片需求有助于缓解了智能手机和电脑中通用芯片需求的长期下滑。在周四的声明中,世界第二大内存芯片制造商SK海力士表示,其高端DRAM芯片的需求正逐渐增加,特别是在生成人工智能领域应用的高带宽内存(HBM)芯片方面表现出色。该公司预计内存芯片市场将在明年真正复苏。站长网2023-10-28 07:49:210000自曝纳税近1亿,“王思聪好友”直播带货,闷声发大财
“知道当网红赚钱,但没想到这么赚钱。”在众多打工人掐着手指算退税还是补税的3月,网红潘雨润在视频中晒出了自己交税9503万元的记录,引发一片热议。按照潘雨润“顶格纳税”的说法,她在2023年的收入将超过2亿元。潘雨润晒出的纳税证明这个在抖音有着778万粉丝的网红,最早引发全网关注还是因为王思聪,也早早就明白“流量的尽头是变现”这个道理。站长网2024-03-25 13:36:480000这届小学生流行盘手串了,该如何看待?
继《孤勇者》后,小学生的圈子里又兴起一项新玩意儿—盘手串儿。前不久,演员陆毅的两个女儿还因为“盘手串儿”登上热搜。在陆毅妻子鲍蕾发布的一段视频中,先是陆毅的小女儿双手各自盘着一个手串,陆毅发问:“现在的小学生都这样吗?这还能好好学习吗?”接着,陆毅的大女儿盘着手串入镜,陆毅又问:“现在的中学生都这样吗?咱还能好好学习吗?”事实上,“盘手串儿”已在全国多地的小学生圈子里风生水起。站长网2023-04-12 11:58:1000002倍速怒刷李一舟199元AI课,AI圈的“韭菜”这么好割?
第一批卖AI课的人已经“凉凉”了?2月20日下午,#李一舟AI课程群疑被解散#冲上热搜,这一消息瞬间炸开了锅。据凤凰网财经报道,在李一舟的某个AI实战训练营群中,助教发消息称,自认能力强或粉丝多的同学都可以申请退群。站长网2024-02-22 18:22:020000