OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!
【新智元导读】GPT-4参数规模扩大1000倍,如何实现?OpenAI科学家最新演讲,从第一性原理出发,探讨了2023年大模型发展现状。
「GPT-4即将超越拐点,并且性能实现显著跳跃」。
这是OpenAI科学家Hyung Won Chung在近来的演讲中,对大模型参数规模扩大能力飙升得出的论断。
在他看来,我们所有人需要改变观点。LLM实则蕴藏着巨大的潜力,只有参数量达到一定规模时,能力就会浮现。
Hyung Won Chung将这次演讲题目定为「2023年的大型语言模型」,旨对LLM领域的发展做一个总结。
在这个领域中,真正重要的是什么?虽然「模型扩展」无疑是突出的,但其深远的意义却更为微妙和细腻。
在近一个小时的演讲中,Hyung Won Chung从三个方面分享了自己过去4年从业以来对「扩展」的思考。
都有哪些亮点?
参数规模越大,LLM势必「涌现」
Hyung Won Chung强调的核心点是,「持续学习,更新认知,采取以“规模”为先的视角非常重要」。
因为只有在模型达到一定规模时,某些能力才会浮现。
多项研究表明,小模型无法解决一些任务,有时候还得需要依靠随机猜测,但当模型达到一定规模时,就一下子解决了,甚至有时表现非常出色。
因此,人们将这种现象称之为「涌现」。
即便当前一代LLM还无法展现出某些能力,我们也不应该轻言「它不行」。相反,我们应该思考「它还没行」。
一旦模型规模扩大,许多结论都会发生改变。
这促使许多研究人员能够以一个新的视角去看待这个问题,即推理思路的根本性转变,从「一些方法现在不起作用」,到「一些方法只是在当前不起作用」。
也就是,最新方法可能不适用于当前模型,但是3-5年后,可能变得有效。
有着新颖视角的AI新人,通常可以带做出有影响力研究。那是因为他们不受一种直觉和想法的束缚,即经验丰富的人可能已经尝试过但发现不成功的方法。
Hyung Won Chung表示,自己平时在实验过程中,会记录下失败的过程。每当有了新的模型,他就会再次运行实验,再来查验哪些是成功的,哪些是失败的,以此往复。
这样一来,就可以不断更新和纠正自我认知和理解,适应技术的日新月异。
目前,GPT-3和GPT-4之间的能力仍然存在显著差距,尝试去弥合与当前模型的差距可能是无效的。
那么,已经有了规模的发展性观点后,我们该如何扩大参数规模?
第一性原理看Transformer
迄今为止,所有大模型背后的架构都是基于Transformer搭建的。想必很多人已经对下图的样子熟记于心。
这里,Hyung Won Chung从第一性原理出发探讨Transformer的核心思想,并强调了Transformer内部架构细节并非关注重点。
他注意到,许多LLM的研究者不熟悉扩展的具体操作。因此,这部分内容主要是为那些想要理解大型模型训练含义的技术人员准备的。
从功能性角度来看,可以把Transformer看作带有矩阵乘法一种简洁的序列到序列的映射,并可以进行相应数组转换。
所以,扩大Transformer的规模就是,让很多很多机器高效地进行矩阵乘法。
通过将注意力机制拆分为单独的头,利用多台机器和芯片,并使用GSP MD方法进行无需通信的并行化。
然后借助Jax的前端工具PJ将阵列轴映射到硬件,可以实现大型语言模型的并行化。
预训练模型的规模将跨越数量级,缩放法则是用小规模模型开发的。
1万倍GPT-4,让神经网络学习目标函数
再进一步扩展模型规模时,设想是GPT-4的10000倍,应该考虑什么?
对Hyung Won Chung来说,扩展不只是用更多的机器做同样的事情,更关键的是找到限制进一步扩展的「归纳偏差」(inductive bias)。
总之,扩展并不能解决所有问题,我们还需要在这大规模工程的工作中做更多研究,也就是在后训练中的工作。
你不能直接与预训练模型对话,但它会在提示后继续生成,而不是回答问题。即使提示是恶意的,也会继续生成。
模型后训练的阶段的步骤包括,指令调优——奖励模型训练——策略模型训练,这也就是我们常说的RLHF。
尽管RLHF有着一些弊端,比如奖励模型容易受到「奖励黑客」的影响,还有开放的研究问题需要解决,但是我们还是要继续研究RLHF。
因为,最大似然法归纳偏差太大;学习目标函数(奖励模型)以释放缩放中的归纳偏差,是一种不同的范式,有很大的改进空间。
另外,RLHF是一种有原则的算法 ,需要继续研究,直到成功为止。
总之,在Hyung Won Chung认为,最大似然估计目标函数,是实现GPT-410000倍规模的瓶颈。
使用富有表达力的神经网络学习目标函数,将是下一个更加可扩展的范式。随着计算成本的指数级下降,可扩展的方法终将胜出。
「不管怎么说,从第一原理出发理解核心思想是唯一可扩展的方法」。
参考资料:
https://twitter.com/xiaohuggg/status/1711714757802369456?s=20
https://twitter.com/dotey/status/1711504620025942243
https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496
字节大模型BuboGPT已开源 demo可玩
字节推出了一种新的大模型,名为BuboGPT,BuboGPT是一种先进的大型语言模型(LLM),能够将文本、图像和音频等多模态输入进行整合,并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。项目地址:https://bubo-gpt.github.io/站长网2023-08-19 13:07:070006小红书站内转化如何做?看这3个商家案例
要不要站内转化是很多商家做小红书犹豫点,去年商家保持观望的态度,但是在今年,特别是近几个月,越来越多商家在小红书站内转化起量。想通过小红书投流引到淘宝、特别是投放预算少的淘宝商家,越来越难,稍有不慎,就会被违规处理。整理近期关注的3个小红书商家,销量破百万的案例,希望对你有所帮助,想学习更多小红书商家课程,可购买小红书品牌营销26讲。站长网2023-11-23 18:14:220000腾讯混元文生图大模型宣布开源:首个中文原生DiT架构
今日,腾讯旗下引人注目的混元文生图大模型(混元DiT)宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在HuggingFace和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。站长网2024-05-14 15:43:450000贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样
Transformer大模型尺寸变化,正在重走CNN的老路!看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。站长网2024-08-02 14:35:220000保姆级小红薯打粉实操分享,简单粗暴,单人月利润3w+
我这段时间一直在做小国学的流量,项目非常顺利,前端流量所有环节都非常丝滑了,单号可以稳定打出10左右的精准流量,都是单粉价值20-30的小国学情感粉。今天,这篇文章,来分享一下我做小红书打粉的方法,所谓方法,也就是一层窗户纸,没什么高深的技术,所以当你深入去做小红书引流之后,你会发现这件事其实没那么困难。站长网2024-06-12 08:39:460002