32k上下文可商用!长颈鹿来袭,开源大模型长度再创新高
要点:
长颈鹿是基于LLaMA模型打造的,上下文长度达到32k,是目前开源大模型中最长的。
研发团队Abacus.AI通过测试不同的上下文外推方法,发现线性插值效果最好,并在此基础上提出了Power Scaling和Truncated Basis两种新思路。
尽管Abacus.AI宣称长颈鹿是首个32k开源模型,但Together.AI更早发布了类似规模的版本,两者可以说并列第一。
长颈鹿(Giraffe)是Abacus.AI团队基于LLaMA模型系列打造的新作,被称为“开源大模型史上第一个上下文长度达到32k的版本”。LLaMA发布于2022年,包含多个规模参数的迭代版本,但都仅有4k的上下文长度,在实际应用中表现仍有局限。为突破这一瓶颈,Abacus.AI团队进行了一系列测试与优化。
论文地址:https://arxiv.org/abs/2308.10882
项目地址:https://huggingface.co/abacusai/Giraffe-v2-13b-32k
他们发现,通过修改注意力机制中的位置编码系统是当前主流的上下文外推方法,包括线性缩放、随机编码等。在此基础上,团队提出了Power Scaling和Truncated Basis两种新思路。Power Scaling是对原有编码做指数变换,使模型更倾向于外推距离较远的上下文;Truncated Basis则是保留高频分量但将低频分量设置为0,也能在循环周期中覆盖更长距离。
为全面评估不同方法的效果,团队设计了三个新的测试集,除困惑度外还加入了问答和关键词检索等任务。结果显示,线性插值最为有效,新提出的Truncated Basis也展现出一定的优势。最终,团队选择线性插值法打造出长颈鹿系列模型,长度可选4k、16k和32k。
Abacus.AI宣称这是全球首个32k开源大模型,但实际上Together.AI已经在更早发布了类似的版本。两家企业使用的上下文扩展方法和模型规模也有细微区别。所以,可以说长颈鹿与Together.AI的模型并列为当前开源领域32k长度的“第一”。
周星驰拍短剧,上线第一集已入账3000万?
微短剧市场正在迎来“正规军”,这一次,来的是周星驰。6月2日,周星驰出品的短剧《金猪玉叶》上线,开播首小时播放量即破百万,截至发稿前,更新的第一集已经引起业内的广泛关注,两天时间播放量就超过了3100万。站长网2024-06-06 17:43:000001法国IT咨询集团Capgemini计划三年内投资20亿欧元在AI领域
法国IT咨询集团Capgemini周五公布了上半年的收入,受其云计算、数据和人工智能(AI)业务的推动,收入有所增长,并表示将在三年内投资20亿欧元(21.9亿美元)用于AI领域。总部位于巴黎的该公司试图通过与微软和谷歌云的合作,帮助企业采用AI技术。站长网2023-07-28 15:36:2900002023年了,特斯拉股东大会有没有新东西?
北京时间5月17日凌晨4:00(美国中部时间5月16日下午3:00),特斯拉2023年股东大会在德州超级工厂召开,并同步进行了网络直播。以下是股东大会重点一览:ModelY有望在2023年成为全球最畅销的汽车奥斯汀工厂产能提高3倍,实现每周5000辆最乐观的猜测是经济在大约12个月内好转,特斯拉不会免受全球经济环境的影响特斯拉股东投票支持执行高管薪酬计划,将每年投票决定高管的薪酬站长网2023-05-17 12:03:210000庄俊:ChatGPT+小红书电商卖货,日赚2000+方法论2.0
│前言│5月11日我写了一篇《ChatGPT小红书爆文,1天量产100篇笔记》(点击文字即可跳转),继上次写到关于ChatGPT如何批量产出笔记,我们今天继续2.0版本。今天我和大家分享一个当前非常热门的新玩法,那就是结合ChatGPT小红书做无货源,批量生产爆款内容相结合,项目玩法让普通人只要能足够保持以恒,副业月入数5000并不是什么难题。│什么是无货源电商?│站长网2023-06-01 21:37:420000亚马逊介绍与 Anthropic 合作提供支持的 AWS AI 芯片
站长之家(ChinaZ.com)10月18日消息:亚马逊日前与Anthropic宣布战略合作,推进生成式人工智能的发展。Anthropic选择AWS作为其主要云服务提供商,并将使用AWSTrainium和Inferentia芯片进行训练和部署未来的基础模型,充分利用AWS高性能、低成本的机器学习加速器。站长网2023-10-18 22:44:260000