GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
刚刚,GPT-4o mini版迎来“高光时刻”——
登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude3.5甩在了身后。

不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。
这个成绩一出,连CEO奥特曼都激动起来了:
面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/20,内心还是很激动。

网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——
GPT-4o mini的微调将逐步开放,目前已开放给tier4和tier5用户,然后会陆续扩展范围。
而且从即日起到9月23号,每天都能免费使用2百万的训练token。

mini与满血版平起平坐
经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。
按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。
紧随其后的是Claude3.5和Gemini家族,还有GPT-4的另外两个版本。

如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。

单独看两者比拼的结果,同样是打得不相上下。

之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——
不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。
在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。
这个大模型竞技场,最近还登上了机器学习顶会ICML2024。

而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。
当时就已经排行第4,和GPT4-Turbo处在同一水平。

更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。

不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude3.5sonnet就有些言过其实了。

有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。

“小模型”也卷起来了
mini版本的推出,主打的就是一个性价比。
每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5Turbo的一半。

如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。
而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——
在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。
实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。
在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了OpenAI,其他公司也都纷纷搞起了小模型。
比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude3-Haiku。
甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。

在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。
甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。
总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。
同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。
这样就不难理解,“小”模型为什么也越来越卷了。
画个圈就能搜索,谷歌Gemini Pro植入旗舰,开启手机AI大战
近日,三星在加利福尼亚州圣何塞隆重发布了最新的GalaxyS24系列手机,AI要素拉满!网友一片热情,纷纷实测AI要素满满三星新旗舰,竟被抱怨一半功能都不太好用!近日,在加利福尼亚州圣何塞举行的GalaxyUnpacked活动中,三星推出了最新的GalaxyS24系列手机。在生成式AI的时代,三星这次也是甩出了满满的AI概念。站长网2024-01-23 14:11:260000能载人、会托马斯全旋!年度最强国产四轮足机器人来袭
快科技12月23日消息,今日下午,宇树科技官方发布消息称:在发布量产一年后,UnitreeB2-W工业轮足,觉醒了更多极限天赋技能!视频里,这只四轮机器人的技艺堪称年度最强,上来就秀了一通高难度体操动作:原地旋转两周、两足倒立旋转三周半,接着一套托马斯全旋让人目不暇接,还能在悬崖边上表演侧空翻,落地非常稳。0000既生小川,何生彦宏
王小川又怼起了李彦宏。他在采访中反驳李彦宏观点的内容片段截图今天在圈子里流传,既抓眼球,又让人惊愕。其实,这是他第N次怼百度了。又和李彦宏“杠”上了称媒体采访的是平行世界的李彦宏百度,或者说李彦宏至于王小川来说,可能恰好就是他无法释怀的“疙瘩”。近年来,王小川屡次三番“辣评”百度。而今年百度、王小川前后脚宣布入局大模型事业后,王小川又针对李彦宏的观点发表了不同看法。站长网2023-04-13 14:22:3900002024新版Windows 11要来了!16GB内存需求引热议 只是推荐配置
快科技1月21日消息,最近,TrendForce集邦咨询的一份报告指出,微软已经将AIPC的内存基线设置为16GB。有媒体表示,这也意味着,新版Windows11的AI功能需要至少16GB内存才能运行。消息曝光后引发热议。对此,WC报道称,微软尚未就上述内存需求发表官方评论。16GB内存很可能只是微软的推荐配置,而非最低配置要求。0000没“学会”直播的苹果,果然还是“急了”
还“没学会”直播的苹果一年一度、热闹非凡的618在5月31日的晚上正式吹响号角,各个电商平台、各大品牌都在针尖对麦芒相继推出特色活动、直播促销,企图在年中这个关键的营销节点先下一城。在今年618这场战意渐浓的营销战中,出现了一位让人意外的“新面孔”,天猫AppleStore官方旗舰店30日发布预告,将在31日晚7点准时开启直播。站长网2023-06-05 19:58:180001