GPT-4o mini背后团队揭秘:9人团华人面孔过半,清华北大同济校友在列
“大模型尺寸之争正在加速……倒退!”
OpenAI的GPT-4o mini一登场,又登上了大模型话题榜榜首。
并且这次话题焦点,是OpenAI不仅再树新标杆,还一出手就把性价比卷爆了——直接把此前大受开发者好评的Gemini1.5Flash和Claude3Haiku给碾压了。
这不,大神Karpathy火速发了篇小作文,做出开头提到的这么一句判断,并进一步解释:
我敢打赌,我们会看到能够可靠“思考”的“小”模型,它们的参数量甚至可能只有GPT-2那么大。
总之,开发者们的心情be like:
两年内大模型成本直降99%,今天宜当开发者。
锣鼓喧天的热烈讨论中,GPT-4o mini背后团队也没藏着掖着,都在𝕏上卖力宣传了起来,并不吝对自家“杀手级团队”的自豪。
也再度引来外界对OpenAI人才的关注。
我们扒了扒,发现其中依然不乏华人面孔。
半数Leader是华人
OpenAI照例在博客末尾附上了团队负责人名单。
此番9位负责人中,有5位都是华人面孔。
Kevin Lu,自述最近刚加入OpenAI。2021年毕业于加州大学伯克利分校,就读期间受伯克利人工智能研究所(BAIR)联合主任Pieter Abbeel和谷歌DeepMind研究科学家Igor Mordatch指导,研究方向是强化学习和序列建模。
Shengjia Zhao,OpenAI研究科学家,方向为ChatGPT的训练和对齐。他于2022年加入OpenAI,博士毕业于斯坦福大学计算机科学系,本科毕业于清华大学。
任泓宇,去年加入OpenAI担任研究科学家,主要负责语言模型训练。他也是GPT-4o的核心开发者、GPT-Next项目组成员。
任泓宇本科毕业于北京大学,博士毕业于斯坦福大学。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft均有大量研究实习经历。
Haitang Hu,去年9月加入OpenAI。他在2011年本科毕业于同济大学计算机专业,后赴约翰·霍普金斯大学攻读计算机硕士。
加入OpenAI前,他在Google工作了7年多。参与过TensorFlow以及大语言模型基础设施的研发工作。
项目经理Mianna Chen,也是GPT-4o的项目经理。她于2023年12月加入OpenAI,之前在Google和DeepMind担任产品经理。她毕业于普林斯顿大学,也是沃顿商学院的MBA。
除了以上几位华人面孔,GPT-4o mini团队还有其他几位核心成员。
Jacob Menick,2022年9月加入OpenAI担任研究员,是GPT-4o mini的技术总负责人。
他还曾共同参与领导了GPT-4o预训练工作,以及ChatGPT 浏览功能和机器学习工具使用的开发,在2023年4月和5月期间负责旗舰模型的后训练工作。
在加入OpenAI前,他在DeepMind干了6年多,参与了Gopher、RETRO和Flamingo等主要语言模型项目,并为DeepMind多模态大模型铺平了道路。
Eric Wallace,去年11月加入OpenAI担任研究员,致力于大模型更可靠、安全和强大。
目前他还在加州大学伯克利分校读博,研究方向是增强机器学习的安全性/隐私性/鲁棒性。在加入OpenAI之前,他还在DeepMind和Meta实习过。
Nick Stathas,去年5月加入OpenAI,拥有高性能计算、机器学习、自动驾驶车辆和嵌入式系统等领域的经验。他本硕均就读于麻省理工学院,曾在MIT Driverless兼职首席工程师,负责无人驾驶汽车的自动驾驶软件开发。
Felipe Petroski Such,GPT-4o mini团队中最早加入(2020年)OpenAI的人,也是GPT-4o的核心贡献者。
在加入OpenAI之前,他还在Uber担任了3年多研究科学家。再往前,他就读于罗切斯特理工学院,获得了计算机工程双学位,并在担任研究助理期间,专注于深度学习研究,包括文档分类、分割和智能字符识别。
mini速度到底有多快
说完了背后的人,回到GPT-4o mini本身,总结一下这波就是主打一个又快又便宜,要在开发者面前找回场子。
那么除了数据之外,最后,我们也不妨来实测一波它到底能有多快。
先直观感受一波速度:
(滑屏速度快赶不上生成速度了)
还有网友把GPT-4o mini和另一位当红炸子鸡Claude3.5Sonnet放在Cursor上,来了场1v1。
另外,在面对长文本生成需求时,GPT-4o mini的16k输出长度确实比Claude3.5Sonnet的8k输出长度更好用。
比如做这道800字的高考作文题,相比于GPT-4o mini的库库输出,Claude同学“总之”刚写了半句就停下了,最后也没写完这篇作文。
正如网友所说,1.09元人民币/百万输入tokens、4.36元人民币/百万输出token的价格,基本上就是Claude3Haiku价格的一半,GPT-4o mini能有这表现,还要啥自行车。
毕竟,这可能一下子就让某些产品告别亏钱走向盈利了(doge)。
不过,也有人不买账:
一旦Gemini2Flash或者Claude3.5Haiku发布,GPT-4o mini就没看头了。
还有网友干脆阴阳怪气了起来:
还是那个问题:GPT-5呢?
参考链接:
[1]https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
[2]https://x.com/karpathy/status/1814038096218083497
—完—
小米Civi 3即将更新小米澎湃OS
小米今日宣布,将在明天发布小米Civi3迪士尼限定版,联名迪士尼人气形象草莓熊。对于本次联名,小米Civi产品经理胡馨心表示,这一次的合作真的非常有趣。此外,胡馨心在回复网友问题时透露,小米Civi3即将更新小米澎湃OS。0000AI火了,云赚翻了
财报季来临,BAT三家的财报接踵而至,云业务成了看点。过去,云厂商们一直大幅亏损,能否持续盈利是近两年业界衡量云厂商实力的重要指标。本季度,百度智能云首次宣布实现了季度盈利,成为继阿里云之后第二家宣布实现盈利的大厂云。阿里云已经连续两年实现盈利,并且要在一年之内实现分拆上市。站长网2023-05-22 09:48:410000贝恩咨询与OpenAI合作,基于ChatGPT打造生成式AI助手Sage
本文概要:全球三大咨询公司之一贝恩宣布,将基于OpenAI的GPT-4大语言模型以及自身海量专业咨询数据,打造的生成式AI助手Sage,为18,500名员工提供服务。贝恩还将微软的MicrosoftCopilot集成业务中,用于执行各种日常任务。贝恩全球管理合伙人MannyMaceda表示,生成式AI对全球的技术创新、生产力和业务增长起到了关键推动作用。站长网2023-10-03 10:05:410000上海大模型发展11条:支持大模型人才落户
上海市经信委发布了《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》,旨在推动大规模预训练模型(大模型)的创新发展。措施提出了以下主要内容:支持大模型创新能力,包括实施大模型创新扶持计划和建立大模型测试评估中心;提升创新要素供给能级,包括实施大模型智能算力加速计划和构建智能芯片软硬协同生态;站长网2023-11-08 16:17:050000蔚来8月新增充电站136座!已实现25978份换电心愿单
快科技9月3日消息,日前,我们从蔚来汽车官方获悉,在刚刚过去的8月里,蔚来汽车共完成了136座换电站的建设,帮助5282名用户在8月实现了换电心愿。作为汽车行业的海底捞”,蔚来汽车一直致力于为客户提供更好的服务。截至至今,蔚来已累计完成25978份心愿单,已填写心愿单的用户中,超过24%的用户有心愿达成。0000