英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2
**划重点:**
1. 🌐 Nemotron-415B拥有150亿参数,基于8万亿文本标注数据预训练,在多领域测试中超越同类大小的开源模型,尤其在代码语言准确率上表现出色。
2. 🧠采用标准Transformer架构,结合自注意力、全局注意力和多头注意力等机制,以及旋转位置编码技术,提升模型表达和泛化能力。
3. 🌐 利用384个DGX H100节点,每节点搭载8个NVIDIA Hopper架构的H10080GB SXM5GPU,采用8路张量并行和数据并行的组合,以及分布式优化器进行分片。
英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。
在多领域测试中,Nemotron-415B在7个领域中的4个表现优异,超越了同类大小的开源模型。特别值得注意的是,在代码语言方面,Nemotron-415B展现出更高的准确率,尤其在资源稀缺的编程语言上超过了Starcoder和Mistral7B等模型。
该模型采用了标准的Transformer架构,包括多头自注意力机制和前馈神经网络。其独特之处在于,Nemotron-415B结合了自注意力和全局注意力机制,以更好地理解输入序列内部的依赖关系和输入序列与输出序列之间的对应关系。多头注意力的引入进一步提高了模型的表达能力和泛化能力。
在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。
Nemotron-415B在英语、数学推理、多语言分类和代码等多个测试任务中表现出色,不仅在性能上超越了LLaMA-234B和Mistral7B,在广泛的代码语言中也取得了更高的准确率。这一成就为大型语言模型的发展和应用提供了崭新的视角。

技术报告https://arxiv.org/abs/2402.16819
华为:像GPT这样的基础大模型 昇腾AI已原生支持30多个
快科技8月12日消息,在昨日举办的2023东湖算力与大数据创新大会上,华为常务董事、企业BG总裁汪涛为大会致辞。汪涛在致辞中表示:人类社会正从数字时代走向智能时代。人工智能的加速发展,特别是大模型的出现,推动人工智能从感知理解走向内容生成,深刻影响社会与生活。从个人到行业,从生活到生产、从边缘到核心,人工智能正在重塑千行万业。0000腾讯音乐发布3项开源大模型加速版本 成本大大降低
近日,腾讯音乐娱乐科技(深圳)有限公司申请注册“文曲大模型”、“文曲天琴”、“文曲天籁”、“文曲心韵”、“文曲百纳”等多个商标,适用于广告销售、教育娱乐和科学仪器等领域,目前这些商标的状态为正在申请中。站长网2023-05-31 15:22:330000小米公司否认收购恒大汽车:从未有过收购或控股的计划和举动
近日,市场流传出一则消息,称小米汽车计划收购恒大汽车高达58.5%的股权,以快速扩充产能,为热销车型小米SU7及第二款SUV的量产铺路。然而,小米汽车方面迅速对此进行了否认,表示从未听说过收购恒大汽车的事情。此前,小米汽车对未来的产能和交付量充满信心,承诺在产能大幅提升的前提下,2024年的交付量将超过10万辆,并力争达到12万辆。站长网2024-05-30 21:22:490000智源研究院推出新一代多模态小模型Bunny-3B
智源研究院近期提出了一项新技术,通过数据浓缩技术获得高质量训练数据,从而提升多模态小模型的性能。具体来说,他们将LAION-2B压缩成2M核心集,得到更丰富的预训练数据,同时精选数据集进行指令微调,训练出性能强劲的小模型。这一技术路线带来了新一代多模态小模型Bunny系列,其中Bunny-3B表现出色,在多个基准上超越了其他近期热门模型,与大模型相媲美。站长网2024-02-23 09:55:220004云游戏:汤姆猫、蓝色光标、完美世界、盛天网络,谁的含金量更高
云游戏即,所有游戏都在服务器端运行,用户的游戏设备不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以。在数字经济时代,随着基础数字设施的完善,云游戏有望得到高速发展。今天就来盘点一下,云游戏板块中的四家代表公司,谁的含金量更高?本文将通过公司的行业优势亮点,以及最新财报经营关键数据,来评估公司最新的含金量情况。汤姆猫,主营移动互联网文化产业业务。站长网2023-05-23 19:03:540003