MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力
最近,麻省理工学院(MIT)和微软的研究学者发现,GPT-4在自修复方面表现出了有效能力,而GPT-3.5则没有。此外,GPT-4还能够对GPT-3.5生成的代码提供反馈。
大型语言模型(LLM)已经被证明可以从自然语言中生成代码片段,但在应对复杂的编码挑战,例如专业竞赛和软件工程专业面试时,仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能,自修复是指模型反思并纠正自身代码中的错误。
论文地址:https://arxiv.org/pdf/2306.09896.pdf
从本研究的实验中,研究者得出以下发现:
考虑到检查和修复的成本,只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型或无修复方法的通过率。
即使对于GPT-4,性能提升也是适度的(从66%提升到71%的通过率),而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记,约45个独立同分布(i.i.d.)的GPT-4样本。
使用GPT-4生成的反馈替代GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复GPT-3.5方法(从50%提升到使用7000个标记时的54%)。
使用人类的解释代替GPT-4自身的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加57%。
爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力,而较弱的模型则没有,这一发现非常有趣,表明大型模型可能具有一种新型的涌现能力,即通过改进自然语言反馈来实现,这种能力可能只存在于模型足够成熟(大而整齐)的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”
新能源品牌周销量来了:比亚迪再次稳居榜首 小鹏杀进第七
快科技10月25日消息,日前,根据各品牌公布的信息我们了解到,在刚刚过去的一周里,新能源汽车的市场发生了很大的变化。从各品牌公布的数据来看,比亚迪依旧稳居榜首,一周卖出了5.19万辆新能源汽车。五菱汽车紧随其后,从上周的第四名成功杀进前三,以0.94万辆的成绩拿下第二,埃安稳扎稳打,以0.93万辆的成绩荣获第三。站长网2023-10-25 20:14:34000011.83亿元!顺丰向极兔转让丰网100%股权
快科技5月12日消息,今晚顺丰控股发布公告称,下属控股子公司深圳市丰网控股有限公司(以下简称丰网控股”)与极兔速递下属子公司深圳极兔供应链有限公司签署了《股权转让协议》。丰网控股拟以人民币11.83亿元转让全资子公司深圳市丰网信息技术有限公司(以下简称丰网信息)100%股权。深圳丰网速运有限公司是丰网信息下属全资子公司,在2020年正式成立,2020年9月丰网速运开始提供快递服务。站长网2023-05-13 09:15:320000流畅度大增!华为良心:4年前荣耀老机型升级鸿蒙4
快科技8月6日消息,HarmonyOS4发布之后,很多老用户问了,荣耀手机能升级鸿蒙新系统吗?答案是肯定的。HarmonyOS官微公布了荣耀手机的升级计划:荣耀30,荣耀30Pro,荣耀30Pro,荣耀V30,荣耀V30PRO、荣耀Play4Pro等6款荣耀机型将于9月-12月开启HarmonyOS4升级,具体升级时间敬请关注官方升级公告。站长网2023-08-06 12:48:310001李国庆喊话宗馥莉:格局要大 以和为贵
近日,娃哈哈与农夫山泉之间的争议成为了公众关注的焦点。针对此事,李国庆于3月12日发布了一段视频,表达了他对这两个企业的看法。在视频中,李国庆首先强调了两个企业取得今天这样的成绩都不容易。他认为,无论是娃哈哈还是农夫山泉,都经历了无数的挑战和困难,才能够在市场上站稳脚跟。站长网2024-03-13 11:17:360000不用排队2小时 导航去餐厅吃饭 高德地图能帮你提前取号排队了
快科技7月1日消息,好不容易约上了三五好友,找到一间满意的餐厅,结果到店取号一看,前方排队40桌,预计等待时间2小时。为了避免这样的糟糕经历,高德地图上线了餐厅排队的功能。你只需打开高德地图APP,搜索想去的餐厅,进入详情页面,就能查看当前的排队预定情况。站长网2024-07-01 18:15:430002