Adept AI开源8亿参数语言模型Persimmon-8B

站长网2023-09-13 09:55:130阅

要点:

1、开源了Persimmon-8B，这是目前参数量少于10亿的最强大的完全免许可语言模型

2、该模型具有16K的上下文长度，超过了LLaMA2的4倍和GPT-3的8倍

3、提供了灵活快速的推理代码，在一块A100GPU上可以每秒生成56个token

Anthropic公司最近开源了Persimmon-8B，这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布，代码和权重已在GitHub上开源。

Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型，但Persimmon-8B是他们模型扩展计划的早期产出，可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调，在现代笔记本电脑上以合适的速度运行，甚至可以容纳在移动设备上。

Persimmon-8B具有几个突出特点:

1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型

2、使用16K的上下文长度进行从头训练，远超过LLaMA2的4K和GPT-3等模型的2K

3、基础模型的性能甚至超过了LLaMA2，尽管训练数据量只有后者的37%

4、模型保留了70K个词向量以进行多模态扩展，并采用了稀疏激活

5、提供了灵活快速的推理代码实现，可以在一块A100GPU上达到每秒生成56个token的速度

通过直接长序列训练，Persimmon-8B能够捕捉更长的上下文关系，这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新，同时也乐于听到用户的反馈。这只是一个早期小规模的开源，他们未来还计划开源更多内容。

AdeptAI开源8亿参数语言模型Persimmon8B

0000

评论列表

共(0)条

相关推荐

站长资讯
薇娅电商公司申请注销
企查查APP显示，近日，杭州谦寻电子商务有限公司新增简易注销公告，公告期自6月7日至26日。信息显示，谦寻电子商务公司成立于2016年11月，注册资本100万元，法定代表人为黄薇（薇娅）丈夫董海峰，同时，董海峰持有该公司51%股份，是公司大股东、实际控制人。此外，该公司还注册有“谦寻直播机构”公众号、“谦寻”“薇你而选”商标等。
站长网2023-06-12 17:18:15
0001
科幻作家Cory Doctorow批评AI是一个充满欺诈的泡沫但并非一无是处
**划重点:**1.📉作者CoryDoctorow认为AI行业存在典型科技泡沫，类比点com危机，预言AI可能会迎来崩溃。2.🤔尽管AI泡沫充满欺诈，但Doctorow认为在泡沫破裂后可能会留下一些有价值的东西，与加密货币和NFT行业不同。3.🔄尽管存在欺诈和运行成本巨大，Doctorow认为AI仍有潜力在特定领域发挥作用，但替代人类工作的可能性可能是不切实际的。
站长网站长资讯2023-12-20 10:01:32
0000
站长资讯
复旦大学与阿里巴巴达成战略合作将共享大模型底层能力
昨日，复旦大学与阿里巴巴集团宣布双方达成全面战略合作，未来将在科研融合创新、科研合作、人才培养等领域展开深入合作。基于复旦大学在基础学科的深厚积累，以及阿里巴巴在大模型计算领域的平台化优势和高质量算力上的工程能力，双方将进行科研融合的创新实践，共同建设面向未来的融合创新计算平台。
站长网2023-06-29 11:39:50
0000
站长资讯
Google DeepMind机器人负责人谈通用机器人和生成型AI的未来
要点:1.GoogleDeepMind的机器人负责人谈论通用目标机器人、生成型人工智能和办公室WiFi。2.OpenX-Embodiment是GoogleDeepMind团队与33个研究机构合作创建的机器人功能数据库，具有潜力推动机器人技术进步。3.GenerativeAI将在机器人领域发挥重要作用，特别是在模拟环境中收集数据和执行任务方面。
站长网2023-11-06 11:52:31
0000
一年期用户复购超50%：博斯腾大健康私域标杆复盘
一年期的客户，周打卡率超90%，并且在最后三个月复购率能够达到50%。这是认知障碍风险数据管理平台「博斯腾」的用户运营数据，但同时他们所在赛道，也面临着较其他大健康品牌更多的难点:如用户认知需要培养、超长的用户生命周期管理、虚拟服务产品的粘性提升等等——大健康因为自己的独有属性，而在私域领域有许多截然不同的标杆案例，但能被记忆、广为借鉴的却少之又少。恰恰博斯腾是这其中之一。
站长网站长资讯2024-06-26 22:45:31
0000