万万没想到,ChatGPT参数只有200亿?
这合理吗?
谁都没有想到,ChatGPT 的核心秘密是由这种方式,被微软透露出来的。
昨天晚上,很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。
微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是个「只有」20B(200亿)参数的模型,这件事引起了广泛关注。
距 ChatGPT 发布已经快一年了,但 OpenAI 一直未透露 ChatGPT 的技术细节。由于其强大的模型性能,人们对 ChatGPT 的参数量、训练数据等信息抱有诸多疑问和猜测。
作为行业一直以来的标杆,ChatGPT 性能强大,可以解决各种各样的问题。它的前身 GPT-3参数量就达到了1750亿,实用化以后的大模型居然被 OpenAI 瘦身了快9倍,这合理吗?
「如何看待这篇论文」的话题立刻冲上了知乎热榜。
论文链接:https://arxiv.org/abs/2310.17680
具体来说,微软这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。CodeFusion 的参数量是75M。在实验比较部分,论文的表1将 ChatGPT 的参数量明确标成了20B。
众所周知,微软和 OpenAI 是合作已久的一对伙伴,并且这是一篇 EMNLP2023论文,因此大家推测这个数据很有可能是真实的。
然而,关于 ChatGPT 参数量的猜测,人们一直认为是一个庞大的数字,毕竟 GPT-3的参数量就已经达到了175B(1750亿)。掀起大型语言模型(LLM)浪潮的 ChatGPT,难道就只有20B 参数?
大家怎么看?
这个数据被扒出来之后,在知乎和 Twitter 已经引起了广泛讨论。毕竟,200亿参数达到这样的效果十分惊人。再则,国内追赶出的大模型动则就是数百亿、上千亿。
那么这个数据保不保真?大家都有什么看法呢?
NLP 知名博主、新浪微博新技术研发负责人张俊林「盲猜」分析了一波,引起了大家广泛赞同:
不负责任猜测一波:GPT4是去年8月做好的,ChatGPT 估计是 OpenAI 应对 Anthropic 要推出的 Claude 专门做的,那时候 GPT4应该价值观还没对齐,OpenAI 不太敢放出来,所以临时做了 ChatGPT 来抢先发优势。OpenAI 在2020年推出 Scaling law 的文章,Deepmind 在2022年推出的改进版本 chinchilla law。OpenAI 做大模型肯定会遵循科学做法的,不会拍脑袋,那么就有两种可能:
可能性一:OpenAI 已经看到 Chinchilla 的论文,模型是按照龙猫法则做的,我们假设 ChatGPT 的训练数据量不低于2.5T token 数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况 ChatGPT 模型的大小约在120B 左右。
可能性二:OpenAI 在做 ChatGPT 的时候还没看到 Chinchilla 的论文,于是仍然按照 OpenAI 自己推导的 Scaling law 来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的 Scaling law 更倾向把模型推大。假设训练数据量是2.5T 左右,那么这种情况 ChatGPT 的模型大小应该在190到200B 左右。
大概率第一个版本 ChatGPT 推出的时候在200B 左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份 OpenAI 做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit 模型效果是能保持住不怎么下降的。
所以很可能 OpenAI 这次升级从自己的 Scaling law 升级到了 Chinchilla 的 Scaling law,这样模型大小就压缩了120B 左右,接近一半(也有可能远小于120B,如果按照 chinchilla law,llama2最大的模型应该是100B 左右,此时算力分配最优,也就是说成本收益最合算。但是实际最大的 llama2模型才70B,而且更小的模型比如7B 模型也用超大数据集。
llama165B 基本是符合 chinchilla law 的,llama2最大模型已经打破 chinchilla law 开始怼数据了。就是说目前大家做大模型的趋势是尽管不是算力分配最优,但是都倾向于增加数据减小模型规模,这样尽管训练成本不合算,但是推理合算,而训练毕竟是一次性的,推理则并发高次数多,所以这么配置很明显总体是更合算的),再加上比如4bit 量化,这样推理模型的大小可以压缩4倍,速度大约可提升8倍左右,如果是采取继续增加训练数据减小模型规模,再加上其它技术优化是完全有可能把推理价格打到十分之一的。
后续在6月份和8月份各自又价格下调了25%,最终可能通过反复加数据减小规模逐渐把模型压缩到20B 左右。
这里解释下为何 ChatGPT 的训练数据量不太可能比2.5T 低,LLaMA2的训练数据量是2T,效果应该稍弱于 ChatGPT,所以这里假设最少2.5T 的训练数据。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral7B 效果炸裂,归根结底是训练数据量达到了8个 T,所以导致基础模型效果特别强。以 ChatGPT 的效果来说,它使用的数据量不太可能低于2.5T。
当然,还有另外一种可能,就是 ChatGPT 在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管 scaling law 了,走的是类似 mistral 的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的 instruct 数据,效果也可能有保障。
不论怎么讲,对于6B 到13B 左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿 mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的 instruct 策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B 左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。
早在 OpenAI 开放 ChatGPT API 时,0.002美元 /1k token 的定价就令人们意外,这个价格只有 GPT-3.5的1/10。彼时就有人推测:「ChatGPT 是百亿(~10B)参数的模型」,并且「ChatGPT 使用的奖励模型(reward model)可能是千亿级模型」。该推测来源于清华大学 NLP 在读博士郑楚杰的知乎回答。
原回答链接:https://www.zhihu.com/question/587083296/answer/2918080518
而国内外许多网友也都认为,200亿的参数,是完全合理的。
也有知乎网友从价格上分析,这个数据也应该是对的。
当然,也有网友认为这可能是个「拼写错误」,或许实际是120B(1200亿),至少120B 和 GPT-3(175B)是一个数量级。
但所有这些都是猜测,由于 OpenAI 对参数量、训练数据、方法等核心信息一直讳莫如深,因此20B 这个数据到底是不是真的根本无法求证。如果是真的,那么大型语言模型未来的改进方向还会是增加参数量吗?
再过几天,就是 OpenAI 的开发者大会了,也许我们能够了解到更多有用的信息,让我们拭目以待吧。
参考内容:
https://www.zhihu.com/question/628395521
https://twitter.com/felix_red_panda/status/1718916631512949248
2024年全球个人电脑市场预计反弹,消费者迎来设备更新,追求人工智能功能
**划重点:**1.💡2024年,个人电脑市场有望增长8%,消费者热衷于更新因疫情时代而陈旧的电脑,同时对具备人工智能功能的设备需求强劲。2.💡催生生成式人工智能热潮将提振个人电脑销售,消费者追求搭载人工智能功能的设备,成为市场的驱动力。3.💡微软于2025年10月14日终止对Windows10操作系统的支持,可能推动数以亿计的设备更新,进一步促使新一代个人电脑的销售。0000OpenAI提交GPT-5商标申请 此前称目前没有训练GPT-5计划
ChatGPT的开发者OpenAI已经向美国专利商标局(USPTO)提交了“GPT-5”的商标申请。这一消息是由商标律师JoshGerben在推特上分享的。尽管OpenAI尚未正式确认GPT-5的具体功能和改进,但该商标申请表明了该语言模型或有新版本。GPT-5被推测是OpenAI高级语言模型的下一个迭代,可能会代表自然语言处理和人工智能能力的方面的重大进步。站长网2023-08-01 09:11:440000百果园抖音团购年销2亿解密
水果零售常年是一个难做的行业,中间链路多、运输消耗大、销售成本高,从路边摊到专业门店,线上线下都是竞争对手。在这个行业中,抖音本地生活年销破亿是件很难的事。但百果园做到了:8000万会员规模和700万月活跃、2000万以上年活跃;6000的全国门店账号;100万的短视频数量造就了抖音团购年销2.4亿,成为“抖音本地生活水果类目第一”。0001图库网站Shutterstock将为企业使用AI图片提供全额赔偿服务
国外知名商业图库网站Shutterstock宣布,将为企业客户提供对其平台上生成式人工智能(AI)图像的许可和使用全额赔偿保护,以防止因使用这些图像而引发的潜在索赔。该公司表示,将通过对图像进行人工审核来履行对赔偿要求的响应。一个月前,Adobe也宣布为其FireflyforEnterprise产品的用户可能因使用其新的AI工具Firefly产品而可能产生的与版权相关的法律费用提供全额赔偿。站长网2023-07-08 17:00:570000对标ChatGPT!李彦宏:文心一言已完成4次技术升级 大模型推理性能已提升近10倍
快科技5月4日讯,今日晚间,在百度新使命六周年暨百度骄傲颁奖典礼上,李彦宏谈透露,文心一言内测一个多月便完成了4次大的技术升级,大模型推理成本已经降到了原来的十分之一,或者说推理性能提升近10倍。李彦宏表示,百度在全球大厂当中,首个发布了对标ChatGPT的大模型产品文心一言。0000