YaRN:可高效扩展现有大模型的上下文窗口长度
要点:
1、YaRN是一种计算高效的方法,可以扩展基于 transformer 的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的 token 和2.5倍更少的训练步骤。
2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。
3、实验表明,YaRN只需要400个训练步骤就能成功实现语言模型的上下文窗口扩展,相比之前的方法降低了10倍的训练样本量和2.5倍的训练步骤。
大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。
Rotary position embedding(RoPE)增强了模型处理顺序数据和捕获序列中位置信息的能力。然而,这些模型必须超越它们所训练的序列长度进行泛化。
Nous Research、Eleuther AI和日内瓦大学的研究人员提出了YaRN (又一个RoPE扩展方法),该方法可以高效地扩展现有语言模型的上下文窗口长度。
项目地址:https://github.com/jquesnelle/yarn
RoPE使用复杂数旋转,这是一种有效的编码位置信息的旋转式位置嵌入,使模型能够在不依赖固定的定位嵌入的情况下有效地编码位置信息。这将帮助模型更准确地捕捉长期依赖关系。控制旋转参数是在模型的训练过程中学习的。模型可以自适应地调整旋转以最好地捕捉标记之间的位置关系。
他们采用的方法是压缩变换器,它使用外部记忆机制来扩展上下文窗口。它们从外部存储库中存储和检索信息,使其能够访问超出其标准窗口大小的范围。已经开发了将记忆组件添加到转换器架构的扩展,使模型能够保留和利用来自过去标记或示例的信息。
他们的实验表明,YaRN成功地实现了具有仅400个训练步骤的LLMs的上下文窗口扩展,这是原始预训练语料库的0.1%,比25减少了10倍,比7减少了2.5倍的训练步骤。这使得它在没有任何额外推理成本的情况下高度计算高效。
总的来说,YaRN改进了所有现有的RoPE插值方法,并以无缺点和最小的实施努力替换PI。微调的模型在多个基准上保持了其原有的能力,同时能够关注非常大的上下文范围。未来的研究工作可以涉及内存增强,这可以与传统的自然语言处理模型结合使用。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息,用于下游任务如问答或机器翻译。
科幻片成真!Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了!
Figure最新展示了他们与OpenAI合作的成果,这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求,并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作,表明这一合作取得了显著进展。Figure的机器人具有以下主要功能和能力:站长网2024-03-14 11:11:050002周鸿祎回应拍卖迈巴赫600:起拍价600元 将全额捐赠
周鸿祎于4月28日发文,就即将举行的迈巴赫600拍卖活动进行回应,并宣布起拍价为600元。他在文中提到,他计划通过直播拍卖这辆二手迈巴赫,旨在倡导更多企业家转向使用国产新能源车与智联车,并坚信这些车辆将重新定义“豪车”概念,成为消费者的首选。站长网2024-04-28 20:40:430000工资到账:小米汽车员工实发工资曝光 年入百万不是梦
快科技6月15日消息,近日,有网友曝光了小米汽车员工实发工资,年入百万不是梦。从网友曝光的图片看,有小米汽车员工晒出的是发工资每月在5.5W-7.2W不等,而年收入是78W不高不低。不过从岗位和工资匹配度来看,这应该是小米汽车高级技术员工。之前有国内媒体报道称,小米汽车正在紧急招工人,月薪最高1万元。站长网2024-06-16 03:19:430000我要为小红书正名:直接成交可比种草香!
小红书只适合种草很难转化?也许你还停留在这样的偏见里。但本文案例给出的答案是“否定的”。伴随着小红书电商的迅速发展,现在有越来越多的人选择在该平台上开店,无论是个人还是品牌商家,都可以通过投放实现商品的成交和订单转化。可以明确的是,小红书上已经形成了至少3条转化链路:1)引流到微信私域成交。通常用于获取用户,或产品无法直接在平台上成交的品牌。站长网2024-07-05 16:26:310000怎么制作ai卡通头像?推荐10个好用的AI生成卡通头像工具
人工智能漫画工具的出现标志着技术与创造力的迷人交汇。这些工具利用人工智能算法的力量,改变了我们将图像和视频转换为卡通风格表示的方式。从专业设计师到休闲用户,人工智能漫画家提供了简单与复杂的独特融合,只需点击几下即可创建令人惊叹的风格化视觉效果。站长网2023-12-28 18:09:020002