元象XVERSE开源650亿参数通用大模型XVERSE-65B
站长网2023-11-06 10:41:070阅
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。
XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。
模型通过训练了2.6万亿个令牌的高质量多样化数据,包含了40多种语言。XVERSE-65B 具有16K 的上下文长度,适用于多轮对话、知识问答和摘要等任务。模型已在多个标准数据集上进行了测试,并取得了良好的性能。

主要特点如下:
模型结构:XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持16K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
训练数据:构建了2.6万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等40多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为100,534的分词器,能够同时支持多语言,而无需额外扩展词表。
训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率位居业界前列。
项目地址:https://github.com/xverse-ai/XVERSE-65B
0000
评论列表
共(0)条相关推荐
五年烧烤无人知,他靠一首《诺言》3天涨粉314万
郭有才,一位来自山东菏泽的草根网红,因翻唱一首《诺言》在短短3天内粉丝数暴增314万,迅速走红网络。他以其独特的复古造型和深情的演绎风格,成功吸引了大量观众的注意。在直播间里,郭有才以90年代的大背头、银丝框眼镜、宽大西装和红白条纹领带的形象出现,身后是已经停运多年的菏泽南站,营造出浓厚的怀旧氛围。站长网2024-05-17 18:05:100001网信办:整治利用生成式AI制作发布涉未成年人有害信息行为
中央网信办发布《关于开展“清朗·2023年暑期未成年人网络环境整治”专项行动的通知》称,即日起,开展为期2个月的“清朗·2023年暑期未成年人网络环境整治”专项行动。站长网2023-06-29 04:07:100000AMD 股价因 2024 年 AI 芯片强劲预测而上涨超过 9%
周三,AMD的股价收涨超过9%,在该公司击败了顶线和底线的盈利预估,并为其2024年的人工智能芯片业务给出了乐观预测的一天后,股价实现了这一跃升。AMD发布了每股70美分的收益,经调整后略高于前身为Refinitiv的LSEG的预估,即每股68美分。营收也略有超出,总额为58亿美元,而预期为57亿美元。站长网2023-11-02 09:48:550000小红书做本地生活,为什么要先与这家公司合作
人们很少用气质来形容一家SaaS公司,但用在FLIPOS身上是合适的。FLIPOS的气质,一方面来自自己的颜值、能力、追求,归根结底是它的商业模式;一方面靠它已经形成、不断扩大但同时精挑细选的「朋友圈」,也就是它精准的客户群体。站长网2023-06-26 00:57:290001短剧赛道再迎高潮,银行为什么开始讨好年轻人
重生、逆袭、霸总……你是否也正沉迷于土味短剧?短剧到底有多火?快手平台7月短剧日活用户达3亿,每日观看10集以上的用户约1.4亿,同比增长55.3%;抖音短剧比去年同期,付费用户增长10倍,付费金额增长5倍。站长网2024-09-23 01:14:360000