32k上下文可商用!长颈鹿来袭,开源大模型长度再创新高
要点:
长颈鹿是基于LLaMA模型打造的,上下文长度达到32k,是目前开源大模型中最长的。
研发团队Abacus.AI通过测试不同的上下文外推方法,发现线性插值效果最好,并在此基础上提出了Power Scaling和Truncated Basis两种新思路。
尽管Abacus.AI宣称长颈鹿是首个32k开源模型,但Together.AI更早发布了类似规模的版本,两者可以说并列第一。
长颈鹿(Giraffe)是Abacus.AI团队基于LLaMA模型系列打造的新作,被称为“开源大模型史上第一个上下文长度达到32k的版本”。LLaMA发布于2022年,包含多个规模参数的迭代版本,但都仅有4k的上下文长度,在实际应用中表现仍有局限。为突破这一瓶颈,Abacus.AI团队进行了一系列测试与优化。

论文地址:https://arxiv.org/abs/2308.10882
项目地址:https://huggingface.co/abacusai/Giraffe-v2-13b-32k
他们发现,通过修改注意力机制中的位置编码系统是当前主流的上下文外推方法,包括线性缩放、随机编码等。在此基础上,团队提出了Power Scaling和Truncated Basis两种新思路。Power Scaling是对原有编码做指数变换,使模型更倾向于外推距离较远的上下文;Truncated Basis则是保留高频分量但将低频分量设置为0,也能在循环周期中覆盖更长距离。
为全面评估不同方法的效果,团队设计了三个新的测试集,除困惑度外还加入了问答和关键词检索等任务。结果显示,线性插值最为有效,新提出的Truncated Basis也展现出一定的优势。最终,团队选择线性插值法打造出长颈鹿系列模型,长度可选4k、16k和32k。
Abacus.AI宣称这是全球首个32k开源大模型,但实际上Together.AI已经在更早发布了类似的版本。两家企业使用的上下文扩展方法和模型规模也有细微区别。所以,可以说长颈鹿与Together.AI的模型并列为当前开源领域32k长度的“第一”。
比尔·盖茨预测人工智能将引发技术爆炸
**划重点:**1.🌐"人工智能将以前所未见的速度加速新发现"—盖茨在年度展望信说道。2.💡在未来18至24个月内,盖茨预测美国等发达国家普通民众将开始广泛使用人工智能,对生产力和创新产生巨大影响。3.🌍盖茨重点关注人工智能在发展中国家的应用,特别强调在全球卫生领域的平等性。0000惠普 CEO:人工智能将彻底改变个人电脑行业 创造一个新的 PC 类别
惠普公司首席执行官EnriqueLores日前在接受CNBC的JimCramer采访时表示,人工智能将从根本上改变个人电脑行业,特别是对他自己的公司而言。站长网2023-05-31 21:00:310000微信朋友圈可以置顶了!
微信朋友圈可以置顶了!就是你可以把自己某一条朋友圈内容设置为置顶,以后用户进入到你的朋友圈主页,就可以最先看到你的这条内容。那么关于微信朋友圈置顶,为什么这么做?有哪些限制?有什么应用场景,村长先和大家一起来聊聊。01微信朋友圈置顶基本介绍1、目前朋友圈置顶的功能,并不是所有人都有,依然属于小范围用户内测。站长网2023-04-20 15:53:590001东方甄选将于10月17日上线付费会员制度 定价199元/年
据澎湃新闻报道,东方甄选将于10月17日正式上线付费会员制度。东方甄选付费会员定价为199元/年。东方甄选为付费会员提供的专属权益,包括百款自营品88折、一年12张会员券、66元券包入会礼等。东方甄选是新东方的子公司新东方在线推出的直播带货平台。2022年12月28日,东方甄选账号从1个增加到6个,粉丝总量突破3600万。站长网2023-10-16 10:53:070001消息称因价格太低无利可图,纬创退出苹果印度代工业务
IT之家5月22日消息,据Indiatimes报道,第一家在印度生产iPhone的公司纬创(Wistron)近日已退出在印度的苹果代工业务,称苹果公司在价格上的强硬谈判导致该公司无法从中获得利润。站长网2023-05-24 12:24:520000