基于LLaMA!开源模型Giraffe将LLaMA上下文窗口扩大10倍 达3万个token
站长网2023-08-26 16:14:333阅
文章概要:
1. 研究人员扩展了开源 LLaMA 模型的上下文窗口,创建了 Giraffe,上下文窗口扩大10倍,达到约32,000个标记。
2. Giraffe适合需要处理数十页文本的商业应用,为大上下文语言模型研究提供了重要见解。
3.该研究还强调了当前技术的局限性以及定制测试的必要性,当前不足以衡量长上下文表现,需要定制测试。
最近,研究人员使用插值技术将开源语言模型LLaMA的上下文窗口从原来的约3,200个token扩大了10倍,达到约32,000个token,由此开发出新的开源语言模型Giraffe。该版本有130亿个参数版本,并且拥有所有开源 LLM 中最大的上下文窗口之一。
Giraffe适用于需要处理数十页文本的各种商业应用场景。像GPT-3这样的语言模型上下文窗口有限,对长文本理解能力较弱。而Giraffe具有更大的“记忆”,能更好地处理这样的用例。
作为开源研究,Giraffe研究还提供了对语言模型内部运作以及不同的上下文窗口扩大技术的重要见解。研究发现,位置嵌入的线性缩放对增加上下文长度最为有效。
研究同时也凸显了当前技术的局限性,因为准确率会随上下文窗口增加而下降。这表明仅用困惑度来衡量语言模型的表现是不够的,对长上下文任务需要定制化的测试。
目前,开源的Giraffe-v2-13b-32k模型已在Hugging Face平台上线,代码也在GitHub上开源。
项目网址:
https://github.com/abacusai/Long-Context
https://huggingface.co/abacusai/Giraffe-v2-13b-32k
0003
评论列表
共(0)条相关推荐
BioMap百图生科 AIGP 蛋白设计平台开启内测
百图生科的AIGP蛋白设计平台发布了首批内测用户招募信息,限量50家,内测注册成功用户将获得免费的算力币,并可以邀请好友试用并获得更多算力币。该平台是基于百图生科的生命科学FoundationModel-xTrimo推出的生成式蛋白设计平台,可以支持多种类蛋白质的生成和优化。AIGP蛋白设计平台无需本地部署,可在线即点即用,用户的数据也会受到严格的加密和保护。站长网2023-09-11 14:04:360000索尼向700多家公司发出警告,禁止使用其音乐数据训练AI模型
划重点:⭐️索尼警告700多家公司,禁止未经许可使用音乐数据训练AI大模型⭐️AI模型厂商必须尊重歌曲作者和唱片艺术家的知识产权⭐️索尼音乐集团是全球最大音乐公司之一,拥有丰富的音乐版权资源索尼音乐集团发出警告,禁止未经许可的公司使用其音乐数据训练大型AI模型。站长网2024-05-20 10:39:160000哈佛医学院与牛津大学联手研发AI工具EVEscape:预测病毒变种
划重点:🔍哈佛医学院和牛津大学的研究人员开发了一种名为EVEscape的人工智能工具,用于预测病毒如何演变成新的变种。🔬研究结果表明,EVEscape可以准确地预测COVID-19的变异,包括在变异发生之前鉴别出变种,以及判断随着病毒变异,哪些抗体疗法将失效。💉该工具还能够准确预测其他病毒如HIV和流感的突变轨迹。站长网2023-10-12 16:30:490000英伟达核弹来了!RTX 5090售价再次曝光:想买准备2万预算
快科技11月23日消息,对于那些打算入手RTX5090的用户,至少要准备2万左右的预算,因为它注定不便宜。据外媒最新报道称,按照一些NV零售商流传出的消息,RTX5090的价格区间可能为1899至1999美元(折合人民币约14500元左右),其最快开卖时间预计在2月初左右(1月的CES大会上正式宣布这款显卡)。如果上述消息准确的话,那么RTX5090国行的显卡售价必然要超过15000元。0000悄悄向淘宝宣战,抖音电商迎来了新的转折点
时代的洪流来得迅猛且凶残,迅猛是因为它可以让刚踏入社会的年轻人靠踩中风口,借趋势完成原始资本积累和阶级跃迁;凶残是因为它也可以无情的淹没那些固步自封不愿改变的老顽固,让保守成为代价和遗憾。小道消息,抖音电商内部分成ABC三个组,A组是品牌客户,B组是产业带,C组是商城。改革了针对商家运营的考核标准——以品牌商家为主的A组更关注GMV;以白牌商家为主的B组更看重订单量。站长网2023-07-12 15:39:570000