GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?
ChatGPT 正式进入了“4”时代。
7月18日,OpenAI 官宣推出了GPT-3.5Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,来到了4字开头的时期。据了解,即日起,ChatGPT的免费用户,Plus用户以及Team用户都能够使用GPT-4o mini,企业版客户也会在随后获得使用GPT-4o mini的权限。
OpenAI杀入小模型赛道!GPT-4o mini究竟有哪些过人之处?
在各大AI企业争相推出产品的当下,OpenAI的更新速度并不算太快。很多人都希望蛰伏许久的OpenAI能够一出手,就干件大事儿,诸如推出一个在各个方面都能碾压上一代产品的GPT-5.0。也正因此,很多人对于GPT-4o mini的出现感到些许失望。
但需要说明的是,GPT-4.o mini不仅不是一无是处,反而是一个极具代表性的产品。OpenAI把GPT-4o mini描述为“一个具有卓越文本智能和多模态推理能力的小模型”,这就对其进行了精准定位:小模型赛道上的领先产品。
据OpenAI介绍,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面优于GPT-4,在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。而GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。
此外,与GPT-3.5Turbo相比,GPT-4o mini的长上下文性能有所提高,已经在几个关键基准上进行了评估,即推理任务,数学和编码能力以及多模态推力。
在推理任务方面,GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%;在数学和编码能力方面,GPT-4o mini的表现优于市场上之前的小型模型,在测量数学推理的MGSM上,GPT-4o mini得分为87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%;在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%;在多模态推理方面,GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。
更重要的是,GPT-4o mini还有一项极具竞争力的优势:价格足够实惠。
OpenAI表示,开发人员使用GPT-4o mini时,每100万个输入tokens需支付15美分,每100万个输出tokens需支付60美分。这个定价比之前的Frontier型号便宜了足足一个数量级。即便与自家的上一代产品GPT-3.5Turbo也要便宜60%以上。
GPT-4o用起来究竟如何?一手测评结果:懂得不算多,但速度绝对快。
当然,理论上的优势说的再多,也不及大家的实际体验来得重要和直观。
目前,GPT-4o mini 在 WildBench 测试上排名第9,优于谷歌的Gemini-flash以及 Anthropic的Claude3Haiku。看得出来,大家对于这款新晋产品还是很感兴趣的。
有网友在GPT-4o mini开放测试的第一时间就赶过去问它了一个问题:9.11和9.9哪个大?
很遗憾,GPT-4o mini没有给出正确的答案,不仅没有给出正确的答案,还在错误的路上越走越远,一本正经地回答9.11大于9.9,因为0.1大于0.9。
随后,网友在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让GPT-4o和GPT-4omini模型进行解读,结果 mini翻车了。GPT-4o mini 直接表示“自己认不出照片上的人”,反而是GPT-4o的回答就比较准确。
不过,说起响应速度,那么GPT-4o mini确实对得起OpenAI给予的“faster”标签。与它进行对话,几乎无需任何等待,输出速度堪称快的离谱。
尽管就目前来看,GPT-4o mini回答问题的准确性还有待提高,但不可否认,它目前已经是性能最为优越的小模型了,完全可以超越GPT-3.5Turbo和其他小模型。据了解,GPT-4o mini的知识更新到去年10月,语言种类和GPT-4o对齐,上下文窗口为128k。
当下的GPT-4.o mini在API中仅支持文本和视觉模态,而在不久的未来,它还将扩展到视频和音频的输入及输出。尽管还没有任何参数规模被披露,但OpenAI的官方直接表示,这是他们目前最经济,最有成本效益的小模型了,微调功能也将很快上线。
小模型的出现,才能真正完成OpenAI的使命?
虽然GPT-4o mini是一个小模型,但相较于大模型,它在性能上并没有做出太大妥协。
得益于优化的架构设计和高效的算法,GPT-4o mini 能够在保留大模型强大性能的基础上,提供更加轻量级的解决方案。这使得它在处理文本生成,对话和翻译等任务时,依然能够表现出色。
但是问题来了,先前一直在做大模型的OpenAI为什么选择转头深耕小模型赛道?
OpenAI API方面的负责人Godement表示,这涉及到一个“优先考虑”的问题。此前,OpenAI专注于GPT-4这样的大模型,而随着时间的推移,OpenAI终于注意到了开发者们渴望对小模型的愿景,才终于决定投入资源。据了解,OpenA对于GPT-4o mini是非常有信心的,认为其一定会非常受欢迎。
事实的确如此。对于渴望低成本构建应用的开发者来说,GPT-4o mini来得太及时了。譬如金融初创公司Ramp在测试中,就用它构建了提取收据上费用的工具,不必费力浏览文本框,模型就会自动对所有内容排序,大大提高了工作效率。
在OpenAI设想的未来里,模型将会被无缝集成到每一个应用程序和每一个网站之上。如今,随着GPT-4o mini的推出为开发者更高效、更经济地构建和扩展强大的AI应用铺平道路。可以看到,AI正在变得更容易访问,可靠,并会融入到所有人的日常体验中。而OpenAI,则会继续引领这一进程。
曾几何时,OpenAI也是一心要走大模型之路的,可惜这条路它们走得并不顺利。尽管相较于上一波AI公司,OpenAI创造了更大的现金流,但从战略上说,它并没有把自己倒腾到一个合适的位置上。
在这种情况下,一味死磕大模型,很有可能给公司造成毁灭性的打击,会导致高昂的人才,训练成本根本找不到落点。更可怕的是,一旦技术增长停滞后,它的客户端注定会把它踢掉或者在多个供应商之间压价。这就会导致大模型公司变成赚钱费劲,花钱很痛快的公司,这是没法长久维持的。所以做大模型。不管创造了多少收入,本质上还在险境里面。
如今,OpenAI显然找到了更适合自己的打开方式。但有一点毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。
图片来源于网络
文字资料参考:
公众号“新智元”文章《奥特曼深夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功,GPT-3.5退役》
https://www.zhihu.com/question/662021096/answer/3567789827
https://baijiahao.baidu.com/s?id=1804991663805668979
年轻人买爆防晒平替:代工厂月入300万,义乌商家通宵发货
一下子涌进来很多散客,让防晒衣代工厂负责人杨峰懵了。起因是,一位博主无意间在内容社区平台发布了一条“在代工厂低价买到蕉下同款”笔记。蕉下防晒衣代工厂的身份,成为“金字招牌”,让杨峰在1688平台上的店铺流量陡增,最高日访问量一度达到5000余人。防晒产品季节性明显,入夏后的5-7月销量会达到峰值,这也是杨峰一年中最忙碌时期,尤其今年高温天气下,工厂生意明显好于往年。站长网2023-07-15 16:26:300000基于ChatGPT的低代码开发框架PromptAppGPT上线 全自动编译
最近,CCF理论计算机科学技术委员会委员张长旺开发了一款创新的自然语言开发框架PromptAppGPT,它是基于ChatGPT的首个自然语言开发框架。据悉,PromptAppGPT支持低代码提示语(即Prompt)应用开发、GPT文本生成、DALL-E图像生成、在线代码编辑器编译器运行器、自动用户界面生成、插件扩展等功能。站长网2023-06-08 16:58:270000引无数科学家竞折腰的“三体问题”到底有多难?
2015年,刘慈欣所著的长篇小说《三体》获得了科幻文学大奖——雨果奖。小说中三体人生活的行星围绕着三颗恒星组成的三体系统运行。三体人演化出了极为先进的科技,却始终无法解决世世代代困扰着他们的“三体问题”。正因如此,他们的文明无数次重建后又被摧毁。站长网2023-05-24 06:26:290000微信视频号上线原创标记外显、原创保护记录、创作分成计划
微信宣布,视频号上线3大原创能力:原创标记外显、原创保护记录、创作分成计划。原创标记外显在视频号内容发布时,页面最下端新增了“原创声明”功能,开启后即可选择“原创类型”,享受平台保护和优先推荐。通过原创声明审核后,这条视频的评论区将展示“已声明原创”标签,在创作者个人主页将展示累计原创条数。原创保护记录站长网2023-05-29 13:46:500000“机器人什么都会,就差统治世界了”——世界机器人大会归来有感
今年机器人行业有多火?看看世界机器人大会现场有多挤就知道了。踏上北京亦庄线地铁,我瞬间被去往世界机器人大会的观众包围了。这场一年一度的机器人盛会,继2015年举办以来,除2020年因疫情缺席外,已持续九届。但今年大会的热度远超以往:媒体证第二天一早就发完了,主办方不得不加急赶制;大会第三天,展馆西门外的道路开始实施交通管制;最后一天,预约购票人员超出安全上限,媒体被要求下午2点前离场……站长网2024-08-28 14:17:350000