IBM 推出高效 LLM 基准测试方法,计算成本降低99%
划重点:
⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法,可以将计算成本降低99%。
⭐️ 该高效方法利用微型化基准测试,显著减少了评估 LLM 所需的时间和金钱成本。
⭐️ 新方法已经引起 AI 社区的关注,并被广泛采用,有望推动人工智能模型评估领域的快速发展。
IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。
该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。
IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。
Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。
高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。
这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。
“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”
IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。
漫画出海,隔壁厂商干出一个IPO
上月底,网漫厂商WEBTOONEntertainment(股票代码“WBTN”)正式在纳斯达克上市,7月8日,开盘价为19.75美元,略低于21美元的发行价格,总市值约为25.6亿美元,相当于0.74个阅文。站长网2024-07-16 09:14:570000国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动
【新智元导读】国产Sora来了!这家公司的AI视频已经实现了15秒4K60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。OpenAI的Sora,现在是彻底把AI视频的场子给热起来了。不仅StableVideo立马上线了公测,而且Pika也随即拿出了给视频对口型的LipSync,以及可以根据内容自动生成声音的音效生成功能。站长网2024-03-14 08:56:190000苹果完成收购加拿大公司 DarwinAI iOS18将有重大更新
据报道,苹果公司最近完成了对位于加拿大的DarwinAI公司的收购,以加强其人工智能团队。DarwinAI专注于开发人工智能技术,用于检查制造过程中的零部件,并致力于打造更高效的人工智能系统。站长网2024-03-15 09:48:100000谷歌推出桌面版Chrome“帮我写”功能 AI写作助手进一步强化
站长之家(ChinaZ.com)12月6日消息:近期,谷歌宣布将人工智能驱动的“帮我写”功能引入桌面版Chrome,为Windows、Mac和Linux用户提供更便捷的写作助手。这一功能已经在GoogleMessages、Gmail、Docs和Keep等应用中得到应用,现在进一步扩展至Chrome浏览器。站长网2023-12-06 11:34:240001开源集中式AI提示词管理器Pezzo 支持OpenAI等主流LLM
Pezzo是一个开源工具包,用于简化AI开发过程。通过它,开发者可以极简地统一管理AI操作流程、协作和prompt版本控制。它只需要几行代码,就可以无缝集成环境,实现实时调试和部署。项目地址:https://github.com/pezzolabs/pezzo它允许开发人员和团队在其应用程序中充分利用AI模型,包括设计、版本管理、发布和轻松集成到应用。站长网2023-08-29 15:59:460003