研究称:英特尔Gaudi2技术在大语言模型推理方面媲美英伟达AI加速器
划重点:
- 📌 研究显示,英特尔的 Gaudi2技术在大规模语言模型推理方面与英伟达的 AI 加速器相媲美。
- 📌 Gaudi2的推理性能在解码方面与英伟达 H100系统相当,并且优于英伟达 A100。
- 📌 根据公共云定价,Gaudi2在训练和推理方面的性价比都超过了英伟达的 A100和 H100。
根据 Databricks 的最新研究,英特尔的 Gaudi2技术在大规模语言模型推理方面与业界领先的英伟达 AI 加速器相媲美。该研究发现,Gaudi2在解码方面的延迟与英伟达 H100系统相当,并且优于英伟达 A100。研究还发现,Gaudi2的推理性能比 H100和 A100实现了更高的内存带宽利用率。
不过,英伟达在顶级加速器的训练性能上仍然更强大。研究人员使用 Databricks 的 MosaicML LLM 工厂进行训练,发现 Gaudi2在单节点 LLM 训练性能方面仅次于英伟达 H100,达到了每芯片超过260TFLOPS 的性能。总体而言,根据公共云定价,Databricks 的研究报告显示,与 A100和 H100相比,Gaudi2在训练和推理方面具有最佳的性价比。
英特尔通过 MLcommons MLperf 基准测试来提供有关 Gaudi2训练和推理性能的自己的测试结果。Databricks 的新数据进一步验证了英特尔的 Gaudi 技术在性能方面的表现,这是来自第三方的验证。
英特尔在2019年以20亿美元收购了 AI 芯片初创公司 Habana Labs 及其 Gaudi 技术,并在此后几年中不断改进这项技术。厂商们通过参与行业标准基准测试来证明性能。无论是英伟达还是英特尔都经常参与 MLcommons MLPerf 的训练和推理基准测试,这些基准测试每年更新多次。在去年11月发布的最新的 MLPerf3.1训练基准测试中,英伟达和英特尔都声称刷新了 LLM 训练速度记录。几个月前的去年9月,也发布了 MLPerf3.1推理基准测试,英伟达和英特尔在该测试中也表现出了强劲的竞争性能。
虽然像 MLPerf 和 Databricks 的研究报告这样的基准测试非常有价值,但 Medina 指出,许多客户依靠自己的测试来确保硬件和软件堆栈适用于特定的模型和用例。他表示,软件堆栈的成熟度非常重要,因为人们对基准测试组织存在怀疑,厂商会对其进行优化以满足特定的基准测试要求。
据 Medina 介绍,MLPerf 是有其一定作用的,因为人们知道要提交结果,技术堆栈需要达到一定的成熟度水平。但他强调,客户不会依靠 MLPerf 的结果来做出业务决策。“MLPerf 的结果只是组织在进行测试之前使用的成熟度过滤器”,Medina 说道。
就在准备于2024年推出 Gaudi3AI 加速器技术之际,有关 Gaudi2的新数据也发布出来了。Gaudi2是采用7纳米工艺开发的,而 Gaudi3基于5纳米工艺,并将提供4倍的处理能力和双倍的网络带宽。Medina 表示,Gaudi3将于2024年发布并开始大规模生产。“Gaudi3是一个将 Gaudi2的性能优势发挥到极致的产品,它在性能上有了巨大的飞跃,从而在性价比和性能功耗比方面带来了优势。”
英特尔正在致力于将公司的高性能计算和 AI 加速器技术融合在一起。英特尔也继续看好其用于 AI 推理工作负载的 CPU 技术。英特尔最近宣布推出带有 AI 加速功能的第五代 Xeon 处理器。
“CPU 在推理中仍然占有相当大的比例,甚至微调在 CPU 上也可能有优势”,Medina 说道。“CPU 参与数据准备,并且当 AI 的计算密度极高时,它们与 Gaudi 加速器一起提供解决方案。因此,我们的总体策略是提供一系列解决方案。”
北大团队发起复现Sora计划“Open Sora” AnimateDiff大神响应
要点:1.北大团队联合兔展发起了复现Sora的计划,框架已搭建,袁粒和田永鸿领衔。2.OpenSora计划采用三部分组成的框架,包括VideoVQ-VAE、DenoisingDiffusionTransformer和ConditionEncoder。3.计划已经完成了初步功能的实现,团队在集结开源社区力量,希望尽可能完成复现。站长网2024-03-04 15:36:2500001毛钱,我买到了盗版《黑神话:悟空》,玩起来让人苦笑不得
盗版贩子,国产3A大作起不来的元凶?猿神,启动!要说近期最热的话题,那必然是《黑神话:悟空》正式上市了。作为今年最受期待的大作之一,它的影响力远超小雷的想象。无论是游戏本身,还是各种联名周边产品,都有卖爆的迹象。站长网2024-08-22 09:16:370000研究人员推无微调对齐方法URIAL 1个提示搞定LLM对齐
要点:研究者通过分析基础大语言模型(LLM)与其对齐调优版本在token分布上的偏移发现,对齐调优主要学习语言风格,而基础LLM本身已经具备回答用户查询所需的知识。提出了一种免微调的对齐方法URIAL,完全利用基础LLM的上下文学习(ICL)来实现有效对齐,只需3个恒定的风格化样本和1个系统提示。使用URIAL的基础LLM在性能上能媲美或超越传统的微调方法。站长网2023-12-06 14:02:270000雷军说小米华为加入后车圈合作多了:以前车企竞争异常激烈
在2024年的北京车展盛会上,各大汽车厂商的领导和高管们纷纷相互走访,积极展开深入的交流。近期,雷军在直播中与央视主持人进行了一场对话,当被问及当前车企之间的关系是否如外界所见的那般和谐时,他给出了自己的见解。站长网2024-04-29 18:42:030001