MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力
最近,麻省理工学院(MIT)和微软的研究学者发现,GPT-4在自修复方面表现出了有效能力,而GPT-3.5则没有。此外,GPT-4还能够对GPT-3.5生成的代码提供反馈。
大型语言模型(LLM)已经被证明可以从自然语言中生成代码片段,但在应对复杂的编码挑战,例如专业竞赛和软件工程专业面试时,仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能,自修复是指模型反思并纠正自身代码中的错误。

论文地址:https://arxiv.org/pdf/2306.09896.pdf
从本研究的实验中,研究者得出以下发现:
考虑到检查和修复的成本,只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型或无修复方法的通过率。
即使对于GPT-4,性能提升也是适度的(从66%提升到71%的通过率),而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记,约45个独立同分布(i.i.d.)的GPT-4样本。
使用GPT-4生成的反馈替代GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复GPT-3.5方法(从50%提升到使用7000个标记时的54%)。
使用人类的解释代替GPT-4自身的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加57%。
爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力,而较弱的模型则没有,这一发现非常有趣,表明大型模型可能具有一种新型的涌现能力,即通过改进自然语言反馈来实现,这种能力可能只存在于模型足够成熟(大而整齐)的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”
每周AI大事件 | 文心一言上线5大插件、OpenAI宣布首笔公开收购、GPT-4新增审核功能
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。PART1动态[国内要闻]1.B站称已将大模型应用于旗下业务站长网2023-08-19 01:13:090005和定制的AI伴侣谈恋爱,只聊了3分钟他就承诺永远爱我
你会选择和AI恋爱吗?据《纽约时报》报道,全球已超过1000万人愿意选择AI恋人作为自己的伴侣。随着AI技术的不断成熟,AI技术驱动的人机交友软件也有了落地的可能,为你寻找一个AI伴侣不再是难事儿。最近,美国科技公司Luka推出了一款AI交友应用“Blush”。比起市场上已有的AI聊天机器人,Blush更像是一款恋爱约会模拟器。站长网2023-07-08 17:08:570001AI日报:Claude推Artifacts分享、重新混合功能;Magnific发布PS插件;Ollama0.2版本发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、独立开发者狂喜!Claude推Artifacts分享功能可在别人基础上修改站长网2024-07-11 08:56:440000恶意解读“小土豆”“小砂糖橘”等称呼 微博:禁言!
快科技1月7日消息,近日微博管理员发布通告称,部分用户由于恶意解读小土豆”大冻梨”小砂糖橘”等称呼被禁言。通告表示,近期哈尔滨旅游爆火引发了广泛关注和讨论,而小土豆”、大冻梨”、小砂糖橘”等彼此间的爱称也在增加趣味的同时传递着友善与温情。但有个别用户罔顾事实刻意带节奏,恶意解读各种爱称并趁机挑动地域对立、性别对立,甚至发布人身攻击、地域攻击等极端言论。站长网2024-01-07 15:34:020000