自己发基准自己第一，Anyscale行为惹社区吐槽

站长网2023-12-25 09:23:070阅

前一天发布 LLMPerf 排行榜，宣称要推动大型语言模型推理领域的发展，鼓励创新与超越。

第二天就收获 AI 社区的大量吐槽，原因是排行榜的「基准甚至没有得到很好的校准」。

这是 Anyscale 这家初创公司正在经历的事情。

Anyscale 是一家专注分布式计算领域的美国初创公司，虽然创立仅三年时间，但却收获了不少的关注。

首先就是 Anyscale 旗下开源项目 Ray 带来的光环。Ray 是一个开源的分布式计算框架，可以将 AI/ML 和 Python 的 workload 从单机拓展至多台计算机上，从而提高 workload 的运行效率，目前已经在 Github 上收获了两万多个 Star。带动了最新一波大模型热潮的 ChatGPT，也是基于 Ray 框架训练的。

还有一部分原因是创始团队的光环。这家初创公司的创始人之一、UC 伯克利教授 Ion Stoica 是市值310亿美元的数据巨头 Databricks 的联合创始人，他在十年前带领学生创立了 Databricks，收获了商业上的巨大成功。在2019年，他又一次做出了创业的决定 ——Anyscale 诞生了。公司创始团队中的 CEO Robert Nishihara 和 CTO Philipp Moritz ，也都是他在伯克利的学生。此外，伯克利教授 Michael I. Jordan 也参与了 Anyscale 的创业。

这些要素，都让人们在 Anyscale 身上看到了 Databricks 的影子，一些投资者将 Anyscale 描述为充满希望的「下一个 Databricks」

2021年12月，Anyscale 完成了1亿美元的 C 轮融资，估值达到10亿美元，投资者包括 a16z、Addition、NEA、Intel 等。今年8月，Addition 和 Intel 又共同牵头追加了新一轮9，900万美元投资。

这应该是一个前景光明的技术团队。而此次被吐槽事件的经过是这样的:

11月初，Anyscale 发布过一个开源大模型推理基准，叫做「LLMPerf」。这个基准是为了方便广大研究者评估 LLM API 性能。

三天前，Anyscale 在上述工作的基础上，推出了 LLMPerf 排行榜。

排行榜地址:https://github.com/ray-project/llmperf-leaderboard

Anyscale 称，他们已经利用 LLMPerf 对一些 LLM 推理提供商进行了基准测试，评估大模型性能、可靠性、效率的关键指标包括以下三点:

第一个 token 的时间（TTFT），表示 LLM 返回第一个 token 的持续时间。TTFT 对于聊天机器人等流媒体应用尤为重要。

token 间延迟:连续 token 之间的平均时间。

成功率:推理 API 在无错误的情况下成功响应的比例。由于服务器问题或超出速率限制，可能会出现失败，这反映了 API 的可靠性和稳定性。

但 Anyscale 晒出的这些测评结果引发了不小的争议，比如 TTFT 这一项指标，对于不同规模的模型，Anyscale 都是第一名。

70B Models:

13B Models:

7B Models:

后两项指标的测评结果中，Anyscale 也显示出「遥遥领先」的水准。

面对这么多优秀对手，Anyscale 真的能实现「吊打」吗?图中结果令人怀疑。

对此，PyTorch 创始人 Soumith Chintala 表示:「看到来自可靠来源的构建不佳的基准让我感到痛苦。我希望 Anyscale 能够解决问题，并在发布此类基准之前咨询其他利益相关者。如果我不是很了解 Anyscale，我会认为这是恶意行为。」

问题出在哪里呢?Soumith Chintala 认为，这个基准没有得到很好的校准，「它仅在很短的时间内展示了复杂问题的一个方面」。

至少，用户需要了解多个附加因素:1. 服务的每个 token 成本;2. 吞吐量，而不仅仅是延迟;3. 在一段时间内测量的可靠性、延迟和吞吐量，而不仅仅是突发可靠性，突发可靠性可能会根据一天中的时间而有很大变化。

此外，Anyscale 应该明确标记该基准是有偏见的，因为 Anyscale 正在管理它，或者向其他利益相关者开放基准的设计和治理，即开放治理，而不仅仅是开源。试图制定和控制标准并不好。

「基准游戏」并不新鲜，曾经的数据库之战、大数据之战、机器学习框架之战都涉及到各种投机取巧的基准测试，仅仅为了更好地展示自己。

两位 AI 学者陈天奇和贾扬清也回忆起，那些年关于「基准游戏」的故事:

作为 LeptonAI 的创始人，贾扬清还分析了 Anyscale 发布的大模型推理排行榜为什么不够合理:

作为 AI 框架领域的资深人士，请允许我分享一个故事。在图像模式时代，每个人都想成为「最快的框架」，为了让自己的速度快上2%，不惜牺牲很多其他因素。

有一个框架从来都不是最快的。猜猜它是什么?

这个框架的名字叫 PyTorch。直到今天，PyTorch 仍然不是最快的框架，这是我从同事 Soumith Chintala 身上学到的重要一课。这是一个有意识的选择，以确保不会过度优化单一（或少数）标准。

我为 Anyscale 制作基准测试而鼓掌，恕我直言，这是一个诚实、用心良苦的基准测试，却存在严重错误和不明确的参数。比如，在引擎盖下运行这些服务的是什么 GPU?

但是，既然性能比较不可避免，那我就把结果公布出来吧。

在 Anyscale 在10月份发布的一篇帖子中，曾对比过三家 API 的推理性能。贾扬清晒出了一张 Lepton API 与这三家 API 的对比图片:

基准数据来源:https://anyscale.com/blog/reproducible-performance-metrics-for-llm-inference

「原始数据不是由 Anyscale 发布的，因此我们不得不在帖子中的原始图片上叠加图表。很抱歉把这些东西拼凑在一起。」贾扬清表示:「我们并不打算用它来衡量谁是最快的，只是想证明我们是名列前茅的。」

除了贾扬清，其他「被上榜」的 API 所属团队也提出了质疑。

比如 FireworksAI 联合创始人、CTO Dmytro Dzhulgakov:

TogetherAI 的 CEO 表示:「Anyscale 是为了清洗他们 API 糟糕性能进行的基准测试。」

多方质疑之下，Anyscale 的 CEO 亲自回应了基准的缺陷问题:

我同意你的很多反馈，我们将解决它!

一些具体的事情:

我们将添加成本作为一个指标（这非常重要）。

我们将随着时间的推移测量延迟和可靠性。正如您提到的，这些事情根据一天中的时间而变化。

关于吞吐量，此处的预期范围是对 API 端点产品进行基准测试（而不是 LLM 推理引擎）。每个副本的吞吐量不是一个面向用户的概念，我们可以在不访问内部的情况下进行基准测试。吞吐量非常重要，但这是一种不同的设置。

我们的目的是使其对社区有用。仅当其成为共同努力并且社区认为这是公平时，它才会有用。我们正在与所有利益相关者联系以就此进行合作。

与此同时，Anysacle 也在邀请各位 API 提供商共同参于排行版的「修正」:

对于此事，你怎么看?

自己发基准自己第一Anyscale行为惹社区吐槽

0000

评论列表

共(0)条

相关推荐

站长资讯
TikTok计划将全球电商业务规模扩大争取今年达到200亿美元
资本市场消息称，字节跳动旗下的TikTok计划今年将全球电子商务业务规模扩大到达200亿美元的商品销售额，目标是扩大四倍以上，主要依靠东南亚市场的快速增长。据了解，TikTokShop于2022年相继进入新加坡、马来西亚、印度尼西亚、菲律宾、越南和泰国等东南亚国家，进一步开发当地的市场。到2022年，TikTokShop在东南亚的GMV达到了44亿美元，较2021年将增长四倍以上。
站长网2023-06-09 19:25:51
0003
站长资讯
研究人员使用AI技术鉴别eBay上的艺术品发现多达40件赝品
划重点:-研究人员通过使用AI技术在eBay上鉴别艺术品，发现多达40件假作品，其中包括一幅被标榜为莫奈的作品和一幅被标榜为雷诺阿的作品。-AI算法将所有作品都识别为假作品，有95%的负概率。专家表示这只是冰山一角，eBay需要严肃对待这个问题。-eBay表示不允许销售假冒商品，但研究人员多次致信该平台表达担忧，至今未得到回复。
站长网2024-05-13 11:39:44
0000
一年花5万，中产鸡娃撑起攀岩新商机
从小众运动到大众解压神器，不受天气限制的攀岩正在出圈。在社交平台上，360集团创始人周鸿祎三天两头分享着自己“磕线”的视频，他在2024年1月投资了一家名为“我攀”的攀岩品牌。年轻人毫无掩饰对这项运动的好奇，2023年⼩红书就约有“攀岩”相关笔记65万。据2023年国家体育总局登山运动管理中心数据显示，2012年全国的攀岩爱好者只有近1万人，截至2023年年底，已增长至50余万人。
站长网站长资讯2024-12-19 15:27:12
0000
站长资讯
vivo X200系列定档10月14日发布将搭载全新进化蓝心大模型
vivo宣布将于10月14日在北京举办新品发布会，届时将推出新一代旗舰手机X200系列。这一系列预计将包括X200、X200Pro等多款型号，并将全球首发联发科天玑9400处理器。vivoX200系列将配备1.5KOLED国产屏幕，并可能在Pro版上采用支持120Hz自适应刷新率的等深四曲直屏。此外，该系列手机有望继承X100Ultra的4K120fps视频录制功能，增强其视频录制能力。
站长网2024-09-14 03:23:29
0000
站长资讯
国产机器人实现空翻还会做咖啡拉花
近日，一段机器人翻跟斗视频在网络上引起轰动。这标志着国产纯电驱动机器人成功实现空翻，挑战了波士顿动力的技术专利。该视频展示了该机器人的高难度运动能力，体现了技术水平和实力。这一惊人的成果是由一家名不见经传的中国公司MagicLab发布的。虽然这家公司之前鲜为人知，但他们采用电驱动方案，成功实现了机器人的空翻和咖啡拉花。这展示了中国科技公司在机器人领域的巨大潜力，也引发了人们对该公司的关注和好奇。
站长网2024-01-22 14:57:06
0000