元象XVERSE开源650亿参数通用大模型XVERSE-65B
站长网2023-11-06 10:41:070阅
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。
XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。
模型通过训练了2.6万亿个令牌的高质量多样化数据,包含了40多种语言。XVERSE-65B 具有16K 的上下文长度,适用于多轮对话、知识问答和摘要等任务。模型已在多个标准数据集上进行了测试,并取得了良好的性能。
主要特点如下:
模型结构:XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持16K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
训练数据:构建了2.6万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等40多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为100,534的分词器,能够同时支持多语言,而无需额外扩展词表。
训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率位居业界前列。
项目地址:https://github.com/xverse-ai/XVERSE-65B
0000
评论列表
共(0)条相关推荐
小米手表S4首发搭载小米澎湃OS 2:将于小米15系列同日发布
小米官方宣布,即将在10月29日的发布会上亮相一系列新品,其中包括小米15系列手机、小米SU7Ultra量产版,以及搭载了全新小米澎湃OS2系统的小米手表S4等多款新品。小米手表S4的外观设计已经公布,这款手表将成为首批搭载小米澎湃OS2系统的设备之一。澎湃OS2系统的引入,为小米手表S4带来了全新的融合设备中心,使用户能够通过单一的手表控制汽车和家中的智能设备。0000英特尔发布酷睿 Ultra 移动处理器:集成NPU AI引擎 具备低延迟AI推理能力
昨日,英特尔正式发布了全新酷睿Ultra移动处理器,代号为MeteorLake。酷睿Ultra的设计目标是在能效、制造工艺和性能方面实现突破。酷睿Ultra分为H系列和U系列两个系列。首批发布的是28WH系列和15WU系列,更高功耗的45WH系列和更低功耗的9WU系列将在明年发布。站长网2023-12-15 09:08:290000OPPO Find X7 Ultra四摄曝光: 4 颗 5000 万像素摄像头
OPPOFindX7Ultra后置4颗5000万像素摄像头,分别是主摄、超广角、3倍潜望长焦和6倍潜望长焦。其中主摄是索尼LYT900,这款传感器最大的升级就是工艺从IMX989的40nm升级到22nm,这会带来更好的能耗表现,可以有效降低传感器工作过程中的发热和耗电。0000vivo与蔡司签署全新联合研发扩展协议 开发更出色影像
站长之家(ChinaZ.com)5月9日消息:vivo宣布与全球光学巨头蔡司再度携手,共同签署了一份全新的联合研发扩展协议,旨在深化双方在移动光学领域的合作,共同探索影像技术的创新与突破。站长网2024-05-09 16:45:180000高斯绘画工具开源 可用于艺术创作和机器学习研究
高斯绘画器是一个使用三维高斯斑点绘制图像的框架。它基于高斯斑点渲染技术,可以以非常逼真的方式渲染和重建图像。该项目提供了一个使用Python编写的开源实现,可以用于艺术创作和机器学习研究。项目地址:https://github.com/ReshotAI/gaussian-painters站长网2023-09-05 10:38:080000