英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2
**划重点:**
1. 🌐 Nemotron-415B拥有150亿参数,基于8万亿文本标注数据预训练,在多领域测试中超越同类大小的开源模型,尤其在代码语言准确率上表现出色。
2. 🧠采用标准Transformer架构,结合自注意力、全局注意力和多头注意力等机制,以及旋转位置编码技术,提升模型表达和泛化能力。
3. 🌐 利用384个DGX H100节点,每节点搭载8个NVIDIA Hopper架构的H10080GB SXM5GPU,采用8路张量并行和数据并行的组合,以及分布式优化器进行分片。
英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。
在多领域测试中,Nemotron-415B在7个领域中的4个表现优异,超越了同类大小的开源模型。特别值得注意的是,在代码语言方面,Nemotron-415B展现出更高的准确率,尤其在资源稀缺的编程语言上超过了Starcoder和Mistral7B等模型。
该模型采用了标准的Transformer架构,包括多头自注意力机制和前馈神经网络。其独特之处在于,Nemotron-415B结合了自注意力和全局注意力机制,以更好地理解输入序列内部的依赖关系和输入序列与输出序列之间的对应关系。多头注意力的引入进一步提高了模型的表达能力和泛化能力。
在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。
Nemotron-415B在英语、数学推理、多语言分类和代码等多个测试任务中表现出色,不仅在性能上超越了LLaMA-234B和Mistral7B,在广泛的代码语言中也取得了更高的准确率。这一成就为大型语言模型的发展和应用提供了崭新的视角。
技术报告https://arxiv.org/abs/2402.16819
美国投资公司Ripplewood计划向 OpenAI 投资 10 亿美元
本文概要:1.金融科技投资者Ripplewood计划向OpenAI投资10亿美元。2.Ripplewood将借助OpenAI的AI软件,开展人工智能相关投资。3.Ripplewood计划推出基于人工智能的投资工具,提供精确的市场预测和优化投资组合。美国知名投资公司Ripplewood计划向人工智能软件公司OpenAI投资10亿美元。站长网2023-08-14 16:12:150000淄博烧烤热下的加盟启示录
在微信运动的记录中,李彦最近每个周末都要走20000步,他并非运动爱好者,而是在精心挑选周边的店铺。“今年经济恢复还不错,但我时间不富裕,就想加盟个品牌,但店铺得自己跑。”每个周末,李彦都日行万步,结合自己地产行业累积的资源和知识,评估起店铺的位置、人流以及周边人群的消费水平。而加盟品牌能够吸引像李彦这样普通打工人的还不止这些,想要兼职创业的张可,最近在选择项目时,着实被震惊到了。站长网2023-05-12 20:38:100000微软Phi-4封神,14B小模型数学击败GPT-4o,合成数据占比40%,36页技术报告出炉
微软下一代14B小模型Phi-4出世了!仅用了40%合成数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。140亿参数,40%合成数据,年度SLM之王诞生!最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。而且,Phi-4粉碎了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。0000OpenDream开源 支持非破坏性的编辑
最近,一款名为OpenDream的新技术在GitHub中引起了大量的关注。OpenDream的核心优势在于,它为稳定扩散工作流带来了多种新的特性。项目地址:https://github.com/varunshenoy/opendream?utm_source=talkingdev.uwl.me站长网2023-08-17 10:29:440000小米汽车:更适合苹果用户使用
小米推出“人车家全生态”战略,强调小米汽车与小米手机的无缝衔接,提供最佳的用户体验。那么,对于苹果用户来说,驾驶小米汽车会是什么感受呢?在发布会上,雷军向果粉们保证,即使是苹果用户也能在小米汽车上享受到卓越的体验。据他介绍,苹果设备与小米汽车的配合相当出色,无论是小米智能座舱、CarPlay还是AirPlay,都为苹果用户提供了良好的支持。0000