Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿
也许是时候寻找新的方法了?
大模型回答人类的对话内容,究竟有多少「智能」成分在里面?
本周五,知名 AI 领域学者,OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 发表观点:「人们对『向人工智能询问某件事』的解释过于夸张」,引发网友热议。
Karpathy 称:人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。所以不要将对话视为「询问人工智能」的神秘主义,而应将其更多地视为「询问互联网上的平均数据标注者」。
例如,当你问「阿姆斯特丹十大景点」之类的问题时,一些受雇的数据标签员可能在某个时候看到了类似的问题,使用谷歌等软件研究了20分钟,列出了10个景点的列表,然后字面意思就变成了正确答案,训练人工智能给出该问题的答案。如果有问题的确切位置不在微调训练集中,神经网络会根据从预训练阶段(互联网文档的语言建模)获得的知识来进行估计。
当有网友评论称:「RLHF 可以创造超越人类的结果」,Karpathy 表示:「RLHF 仍然是来自人类反馈的 RL,所以我不会这么说」。
Karpathy 认为:RLHF 将模型性能从 SFT 的「人工生成」级别提升到「人工判别」级别。但这与其说是「原则上」,不如说是「实践上」,因为「判别」对于普通人来说比「生成」更容易(例如,判断这5首关于 X 的诗中哪一首最好,而不是写一首关于 X 的诗)。
另外,还可以从群体智慧效应中获得单独的提升,即 LLM 的性能不是达到人类水平,而是达到人类整体水平。因此,原则上,对于 RLHF,所能期望的最好结果就是达到专家水平。
所以从某种意义上来说,这算是「超人」,但 Karpathy 认为:要按照人们默认的方式成为真正的「超人」,要去 RL 而不是 RLHF。
其实,这已不是 Andrej Karpathy 第一次批判 RLHF 了。作为前 OpenAI 重要成员,他在今年8月就和 Yann LeCun 等人一起质疑过由 GPT 系列模型发扬光大的 RLHF 强化学习的意义。
「RLHF 只是勉强算强化学习。」
他当时使用 DeepMind 的 AlphaGo 作为例子。如果我们当时用 RLHF 的方法训练 AlphaGo 会是什么样子?可能会既无法构成有效的奖励,又会形成偏离正常轨道的优化,那就势必无法创造出「打败人类世界冠军」的历史了。
出于同样的原因,Karpathy 对 RLHF 竟然适用于 LLM 感到「有点惊讶」。因为我们为 LLM 训练的 RM(Reward Model)只是以完全相同的方式进行直觉检查。它会对人类标注者可能喜欢的判断给出高分,它不是正确解决问题的「实际」目标,而是人类认为好的替代目标。
其次,你甚至不能运行 RLHF 太长时间,因为你的模型很快就会学会适应游戏奖励模型,再推理出一些不正常的 Token。这在人类看来很荒谬,但出于某种原因 RM 会认为看起来很棒。
无独有偶,今年9月,一篇来自 VRAIN、剑桥大学研究人员的 Nature 论文对 o1-preview 等模型进行了评测,发现很多对于人类来说简单的任务,大模型却根本无法解决。而在一些复杂的任务上,LLM 也根本不知道「回避」,而是会装模作样的思考一通之后,给出一个错误的答案。
虽然随着时间的推移,大模型的参数体量越来越大,训练的数据也越来越多,性能也不断提升,但从基础机制的角度来说,它们似乎并不靠谱。
如果 RLHF 不管用,还能有什么样的奖励机制能帮助大模型「准确遵循指令」呢?
今年7月,OpenAI 就公布了一种教导 AI 模型遵守安全政策的新方法,称为基于规则的奖励(Rule-Based Rewards,RBR)。RBR 不仅限于安全训练,它们可以适应各种任务,其中明确的规则可以定义所需的行为,例如为特定应用程序定制模型响应的个性或格式。这或许为大模型下一步性能突破提供了新的思路。
参考内容:
https://x.com/karpathy/status/1821277264996352246
小米大模型,不搞“ChatGPT”
ChatGPT上线半年后,一场大模型追逐战继续在太平洋两岸上演。由OpenAI、微软和英伟达组成的联盟,正在太平洋东岸玩命狂奔。今年3月以来,中国科技公司紧急跟进,百度、阿里、商汤、科大讯飞相继推出“类ChatGPT”产品,腾讯、华为、京东公开表示正在跟进大模型,都想抓住这个比互联网时代还“大十倍”的机会。“百模大战”当前,作为国内大型科技企业的小米,却显得格外冷静。站长网2023-06-14 09:40:210000周鸿祎宣布 360 上线 AI 商店:将集成全球人工智能工具
在央视财经频道日前播出的《对话》节目中,360集团创始人周鸿祎表示,这次人工智能是真的,不是假的,它不是像过去做的人工「智障」,是「弱」人工智能,或者是垂类的人工智能,它是通用人工智能。ChatGPT4.0已经是地球上最聪明的「人」了。所有高科技公司都在打造自己的大模型,至少是「千模大战」,不出意外,很快会发展到「万模大战」。站长网2023-05-15 09:24:450001谷歌似乎正在开发一款需要付费的 “高级版” Bard
划重点:-谷歌似乎正在开发一款名为“BardAdvanced”的升级版本,用户需通过谷歌One付费订阅来使用。-BardAdvanced似乎由谷歌新推出的大型语言模型(GeminiUltra)提供支持,比当前版本的Bard(GeminiPro)升级了功能。站长网2024-01-05 09:38:420000沃尔玛利用人工智能确保圣诞礼品顺利送达
**划重点:**1.🚀沃尔玛投资巨资发展人工智能,通过生成式AI工具强化库存管理系统。2.🌐人工智能缩短交付时间,预测销售并根据天气事件及时调整库存,提高供应链效率。3.🎄利用AI技术,沃尔玛改进了节日购物体验,使客户更轻松,避免库存浪费。0000微软CEO:OpenAI 创始人 Sam Altman 将加入微软
刚刚,微软首席执行官纳德拉发文宣布,OpenAI创始人SamAltman和GregBrockman及其同事将加入Microsoft,领导一个新的高级AI研究团队。纳德拉表示,微软将为他们提供所需的资源。据悉,山姆・阿尔特曼(SamAltman)是一位美国企业家和投资者,被称为ChatGPT之父。站长网2023-11-20 16:20:420000