Adept AI开源8亿参数语言模型Persimmon-8B
站长网2023-09-13 09:55:130阅
要点:
1、开源了Persimmon-8B,这是目前参数量少于10亿的最强大的完全免许可语言模型
2、该模型具有16K的上下文长度,超过了LLaMA2的4倍和GPT-3的8倍
3、提供了灵活快速的推理代码,在一块A100GPU上可以每秒生成56个token
Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。
Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。

Persimmon-8B具有几个突出特点:
1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型
2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K
3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%
4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活
5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度
通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。
0000
评论列表
共(0)条相关推荐
网易AI创意工坊:无需部署、无需安装即可体验 Stable Diffusion
网易AI创意工坊是一款优秀的人工智能绘画工具,用户无需部署、无需安装即可体验StableDiffusion。只需要通过文字描述,就可以生成风格多样的图像,实现人人“创作自由”、“绘画自由”。体验地址:https://ke.study.163.com/artWorks/painting站长网2023-08-24 16:31:170005谷歌量子芯片引爆热议:5分钟算完10²⁵年任务,Nature加急发表,还证实了多元宇宙???
全球科技圈都在为Sora疯狂,马斯克却轻轻给谷歌点了个赞(doge)。就在OpenAI“双12”第三天,谷歌在前沿科技的另一极出手了:发布最新量子芯片,5分钟内完成当今最快超级计算机之一需要10²⁵年才能完成的计算!怎么说1025这事儿呢,就是……10000000000000000000000000,10亿亿亿年。0000消保委:强制收取外卖打包费损害消费者权益
上海市消保委今日发布观点称,在当前的外卖市场中,强制收取外卖打包费影响了公平竞争,也损害了消费者的权益。他们认为外卖产品的价格应该包含基本的打包费用,而单独收取打包费是对消费者进行了二次收费,违背了公平交易原则。将外卖打包费作为价外收费也使消费者难以做出准确的价格比较,模糊了价格透明度,损害了消费者的知情权和选择权。站长网2024-03-06 14:20:420001消息称苹果首款MR头显售价与成本相当 最初曾考虑亏本销售
5月29日消息,据外媒报道,在苹果宣布2023年度的全球开发者大会,也就是WWDC将在当地时间6月5日-9日举行之后,外界就预计传闻多年的MR头显,有望在今年的大会期间登场。从外媒的报道来看,融合了AR和VR功能的MR头显,被苹果内部认为是他们到目前为止设计的最复杂的产品。站长网2023-05-29 19:56:080000小米高管内部讲话曝光 称小米汽车目标比肩保时捷特斯拉
据新浪科技报道,小米汽车部在日前的一场内部活动上,向员工们透露了他们的雄心壮志。据小米汽车副总裁于立国在内部讲话中表示,小米汽车部的目标是打造一台可以比肩保时捷和特斯拉的DreamCar。小米汽车部成立近三年来,目前已有3700名员工,他们来自五湖四海,但都怀揣着共同的梦想,致力于实现这一目标。站长网2023-12-27 18:08:170000