Adept AI开源8亿参数语言模型Persimmon-8B
站长网2023-09-13 09:55:130阅
要点:
1、开源了Persimmon-8B,这是目前参数量少于10亿的最强大的完全免许可语言模型
2、该模型具有16K的上下文长度,超过了LLaMA2的4倍和GPT-3的8倍
3、提供了灵活快速的推理代码,在一块A100GPU上可以每秒生成56个token
Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。
Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。
Persimmon-8B具有几个突出特点:
1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型
2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K
3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%
4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活
5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度
通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。
0000
评论列表
共(0)条相关推荐
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的I2V方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。站长网2024-01-14 20:36:260000“数学天才”陶哲轩也爱上 GPT-4:节省了大量繁琐工作
由ChatGPT掀起的AI热潮,在经过GPT-4的震撼发布后,又被推至新的巅峰——不仅引起业界无数人的关注,如今还“出圈”成为了数学天才陶哲轩喜爱的AI工具之一。本周,陶哲轩在开源社交平台Mastodon上发文:“今天,我可以明确地说:GPT-4确实为我节省了大量繁琐的工作。”将AI工具纳入工作流程站长网2023-04-14 09:08:540002抖音开放平台宣布开放抖音小程序核销工具解决方案
今日,抖音开放平台宣布开放抖音小程序核销工具解决方案,帮助生服商家更好的解决核销问题,提升经营效率。核销工具是消费者在抖音购买团购券后,直接可在抖音小程序内核销团购券的工具。它可帮助商家实现“原生团购卖券——>抖音小程序核销团购券”的链路。站长网2023-05-26 15:38:070003研究称:生成一张AI图像所消耗能源相当于给手机充满电
划重点:-生成一张图像使用强大的AI模型所消耗的能源相当于给手机充满电-使用AI模型生成文本的能源消耗较低-大型生成AI模型的使用比专门针对特定任务的小型模型更能耗根据AI初创公司HuggingFace和卡内基梅隆大学的研究人员进行的一项新研究,每次使用AI生成图像、撰写电子邮件或向聊天机器人提问,都会对地球造成一定的负担。站长网2023-12-01 18:10:340000懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
【新智元导读】有了3D-语言模型,去重庆导航也不在「话」下!大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。但这些模型的训练过程并没有引入3D物理世界,也就无法理解更丰富的现实概念,包括空间关系、布局、物体反馈等。站长网2023-08-03 15:53:000000