MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力
最近,麻省理工学院(MIT)和微软的研究学者发现,GPT-4在自修复方面表现出了有效能力,而GPT-3.5则没有。此外,GPT-4还能够对GPT-3.5生成的代码提供反馈。
大型语言模型(LLM)已经被证明可以从自然语言中生成代码片段,但在应对复杂的编码挑战,例如专业竞赛和软件工程专业面试时,仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能,自修复是指模型反思并纠正自身代码中的错误。
论文地址:https://arxiv.org/pdf/2306.09896.pdf
从本研究的实验中,研究者得出以下发现:
考虑到检查和修复的成本,只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型或无修复方法的通过率。
即使对于GPT-4,性能提升也是适度的(从66%提升到71%的通过率),而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记,约45个独立同分布(i.i.d.)的GPT-4样本。
使用GPT-4生成的反馈替代GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复GPT-3.5方法(从50%提升到使用7000个标记时的54%)。
使用人类的解释代替GPT-4自身的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加57%。
爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力,而较弱的模型则没有,这一发现非常有趣,表明大型模型可能具有一种新型的涌现能力,即通过改进自然语言反馈来实现,这种能力可能只存在于模型足够成熟(大而整齐)的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”
华为重磅发布会在即:nova13系列今晚发布
华为nova13系列将于今晚正式发布。此前,华为nova13系列现已正式开启预订。消费者可以在华为官方商城预购这两款新机型,并享受新品上市优惠50元以及6期免息分期付款的福利。0000快手打击侵权盗版体育赛事直播转播等行为
快手发布关于打击侵权盗版的处罚公告称,近期,注意到,很多创作者对体育赛事内容的分享极为热情,并进行赛事直播、转播等动作。如:对篮球版权赛事NBA进行直播、转播。快手称,非常理解大家对体育运动的热爱,对此,致力于与版权方合作,通过版权授权等形式,给创作者提供直播或二次创作的空间,但对于未获授权的体育赛事的直播、转播等问题,平台也严厉打击。站长网2023-05-06 08:33:230000可口可乐:2023一季度净利润超30亿元 同比增长11%
近日,可口可乐公司发布2023年第一季度业绩报告,营收达1098亿美元,同比增长5%,超出预期的1078亿美元。经营利润为33.67亿美元;净利润为31.13亿美元,同比增长11%;每股收益为0.68美元,同比增长5%,高于市场预期的0.65美元。站长网2023-04-25 15:25:090002老黄H100再破纪录,4分钟训完GPT-3!全新「特供版」H20、L20和L2曝光,性能史诗级缩水
H100再次在MLPerf中刷新了记录!英伟达超算NVIDIAEos在GPT-3模型的基准测试中,只用了3.9分钟就完成了训练。这比6月份的刷新记录的成绩——10.9分钟,提升了近3倍。Eos使用了多达10,752个H100和NVIDIAQuantum-2InfiniBand网络互连。通过推算,Eos现在可以在短短8天内进行训练,比之前使用512个A100GPU的先进系统快73倍。站长网2023-11-10 16:10:320000Stability AI 首席执行官敦促立法者保持 AI 开源
文本到图像生成器StableDiffusion背后的公司StabilityAI的首席执行官EmadMostaque正敦促美国立法者保持AI开源,并概述了他们可以采取的五个措施来防止AI危害。站长网2023-06-02 00:11:240000