GPT-4o mini登顶大模型竞技场，奥特曼：两个月内微调免费

站长网2024-07-25 10:31:060阅

刚刚，GPT-4o mini版迎来“高光时刻”——

登顶了lmsys大模型竞技场，和满血版并列第一，还把Claude3.5甩在了身后。

不同于一般的数据集测评，大模型竞技场是用户自己出题、用脚投票的结果，无法通过“刷题”来走捷径，因此更为真实。

这个成绩一出，连CEO奥特曼都激动起来了:

面对评估成绩，我们本来是尽量矜持的，但是看到GPT-4o mini表现和满血版一样，价格却只有1/20，内心还是很激动。

网友看到之后表示OK，但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

与此同时，OpenAI也送来了另一个好消息，将为开发者送出福利——

GPT-4o mini的微调将逐步开放，目前已开放给tier4和tier5用户，然后会陆续扩展范围。

而且从即日起到9月23号，每天都能免费使用2百万的训练token。

mini与满血版平起平坐

经过80多款模型上百万轮的1v1比拼，GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。

按照lmsys榜单的排法，这7分的差距没有影响名次，把两个型号算作了并列第一。

紧随其后的是Claude3.5和Gemini家族，还有GPT-4的另外两个版本。

如果我们查看GPT-4o mini的原始数据，会发现它0.6的平均胜率仅次于满血版本。

单独看两者比拼的结果，同样是打得不相上下。

之所以lmsys的成绩受到关注，在于它拥有一套独特的比拼方式——

不用数据集，而是让用户自己出题，随机拉两个模型1对1battle，然后选择哪个模型表现更好。

在给出选择之前，模型是匿名的，用户也不知道是哪两个模型正在比拼，如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实，既避免了“刷题”获取虚高分数的可能，也更加接近用户体验。

这个大模型竞技场，最近还登上了机器学习顶会ICML2024。

而且，lmsys的评测也非常受OpenAI的青睐，GPT-4o mini正式上线之前的早期版本，就曾化名为gpt-mini在其中打榜。

当时就已经排行第4，和GPT4-Turbo处在同一水平。

更早一些，GPT-4o上线之前也是化名gpt2-chatbot，在lmsys上搞起了测试。

不过也有人提出质疑，表示虽然GPT-4o mini表现确实很好，但是要说它超过了Claude3.5sonnet就有些言过其实了。

有人更是直言，lmsys方法的完善性已经开始瓦解，需要做出改变，否则将不再是一个有用的测试基准。

“小模型”也卷起来了

mini版本的推出，主打的就是一个性价比。

每百万输入/输出tokens，价格分别为15美分和60美分（约1.09/4.36人民币），甚至还不到3.5Turbo的一半。

如果和两年前GPT-3的text-davinci-003版（当时最好的模型）相比，价格更是下降了99%。

而且除了把小模型开放给用户，OpenAI还搞出了新鲜玩法——

在“超级对齐”团队的一篇遗作中，使用了参数量为大模型千分之一或百分之一的小模型，来对大模型进行优化。

实验中，大小两个模型相互“博弈”，大模型需要不断优化调整自己的输出，让小模型相信自己说的是真话。

在这个“博弈”的过程中，大模型的能力得到了提升，在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了OpenAI，其他公司也都纷纷搞起了小模型。

比如在GPT-4o mini之前，谷歌和Anthropic就分别推出了Gemini Flash和Claude3-Haiku。

甚至可以说，GPT-4o mini就是OpenAI对两家的反击，无论是性能还是价格都超越了这两个模型。

在GPT-4o mini发布的同一周，抱抱脸Hugging Face，以及“欧洲OpenAI”Mistral都相继推出了小号模型。

甚至苹果也推出了自己的7B模型，而且一次性开源了全部训练过程和资源。

总之，在性能足以满足使用需求的前提下，小模型无疑是一种更经济实惠的选择。

同时，更小的规模也意味着有可能在端侧运行，在隐私保护等方面显现出优势。

这样就不难理解，“小”模型为什么也越来越卷了。

GPT4o mini登顶大模型竞技场奥特曼两个月内微调免费

0000

评论列表

共(0)条

相关推荐

站长资讯
小米618战报：全渠道累计支付金额破263亿元
站长之家(ChinaZ.com)6月19日消息:今年的618大促落下帷幕，小米官方揭晓了战果:全渠道累计支付金额飙升至263亿元，这一数字不仅彰显了小米的强劲销售实力，更刷新了其历年大促的销售纪录。清晨，小米创始人雷军便通过社交媒体，向广大消费者表达了由衷的感谢，肯定了这一佳绩背后是消费者们的鼎力支持。
站长网2024-06-24 00:04:52
0000
站长资讯
提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点
【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。
站长网2023-11-23 14:13:39
0000
站长资讯
OpenAI正在筹备移动版，是智能手机的杀手还是救星？
AI登陆手机，难度因人而异。原本小雷还以为「2023年是属于元宇宙的一年」，实在没想到以ChatGPT为代表的AI技术能在这么短的时间内抢走元宇宙的风头，成为2023年的技术关键词。从OpenAI到搜索引擎、从绘图工具到游戏公司，几乎所有「稍微出名点」软件企业都在今年推出了自己的自然语音AI对话模型。
站长网2023-04-17 09:26:46
0000
华为发布HarmonyOS NEXT Developer Beta2：新增手势拦截等能力
快科技7月21日消息，据华为开发者官网显示，目前HarmonyOSNEXTDeveloperBeta2已经正式发布，主要是面向开发者的Beta尝鲜试用版本。据介绍，HarmonyOSNEXTDeveloperBeta2在Beta1的基础上，有以下更新：增强了ArkUI的基础能力，新增了手势拦截能力，丰富了多种组件的生命周期管理能力，提供多种组件更细化的设置项等；
站长网站长资讯2024-07-21 13:26:55
0000
站长资讯
超头部主播双11混战，谁是最大赢家？
第15个双11正式收官，同去年一样，阿里、京东等平台不再官宣最终销售额，战报公布的是用户规模，品牌破千万、过亿成交额数量等。除了平台的数据，另一个值得注意的是电商直播间。李佳琦、谦寻、辛巴、交个朋友、东方甄选、疯狂小杨哥等超头部主播/直播间，跟双11预售首日低价混战、轮番上头条的热闹相比，似乎有点高开低走。
站长网2023-11-13 21:47:41
0000