IBM 推出高效 LLM 基准测试方法,计算成本降低99%
划重点:
⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。
⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。
⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。
IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。
IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。
该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。
IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。
Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。
高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。
这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。
“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”
IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。
这届618,“切片小杨哥”PK“AI李佳琦”
自京东推出“采销东哥AI数字人”为其618大促进行预热那天起,AI带货就已经成为了多方竞逐的“新赛点”。不仅腾讯云、百度智能云接连发布相关招募计划,就连“带货一哥”李佳琦所在的美ONE公司也宣布,从今年618大促开始,旗下的“所有女生”直播间将测试数字人直播,并搭建AI智能客服。站长网2024-05-29 07:42:500000抖音推出微短剧经营扶持计划 投入亿级资源补贴优质内容
7月18日,抖音推出微短剧经营扶持计划,投入亿级资源补贴优质内容,从微短剧营销、小程序经营、内容创作等方面扶持微短剧制作方经营,促进行业精品化、高质量发展。经营扶持计划具体分为三个方面:剧有潜力计划、启航计划和辰星计划。站长网2024-07-19 10:30:390000亚马逊加入生成式 AI 竞赛:借助 Bedrock 推出大语言模型 Titan
站长之家(ChinaZ.com)4月14日消息:亚马逊于AWS官网宣布推出AmazonBedrock服务和AmazonTitan大语言模型。亚马逊正在推出一项名为Bedrock的云服务,开发者可以用能够生成文本的人工智能系统来增强他们的软件,这与微软支持的创业公司OpenAI提供的流行的ChatGPT聊天机器人背后的引擎相似。站长网2023-04-14 09:17:270000苹果iPhone 16系列明日发布 iPhone16Pro预计维持999美元起价
在9月10日凌晨1点,苹果公司将举办秋季发布会,目前,苹果中国官网已经启动了发布会的倒计时,并提供了将活动添加至日历的选项。站长网2024-09-10 16:25:580000QQ音乐回应微信用户自动续费涨价:针对优惠到期用户
快科技12月4日消息,今日,QQ音乐涨价”相关话题引起网友热议。根据网友反馈,QQ音乐向微信用户发送了续费服务价格变更提醒”,2024年1月9日0点起,绿钻豪华版微信自动续费的费用将从11.4元/月变更至15元/月。据国内媒体报道,QQ音乐客服对此回应,称此次是针对之前有优惠价格的用户涨价,优惠到期后,11.4元一个月会涨回15元一个月。0000