MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

站长网2023-07-05 19:13:321阅

最近，麻省理工学院（MIT）和微软的研究学者发现，GPT-4在自修复方面表现出了有效能力，而GPT-3.5则没有。此外，GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型（LLM）已经被证明可以从自然语言中生成代码片段，但在应对复杂的编码挑战，例如专业竞赛和软件工程专业面试时，仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能，自修复是指模型反思并纠正自身代码中的错误。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中，研究者得出以下发现:

考虑到检查和修复的成本，只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5，在所有配置下，修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4，性能提升也是适度的（从66%提升到71%的通过率），而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记，约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过了基线的无修复GPT-3.5方法（从50%提升到使用7000个标记时的54%）。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果，从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力，而较弱的模型则没有，这一发现非常有趣，表明大型模型可能具有一种新型的涌现能力，即通过改进自然语言反馈来实现，这种能力可能只存在于模型足够成熟（大而整齐）的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”

MIT微软证实GPT4具备自我纠错能力较弱的模型则没有这种能力

0001

评论列表

共(0)条

相关推荐

站长资讯
再造播客“元年”，喜马拉雅如何助推播客扩宽赛道？
2020、2021被普遍认为是播客“元年”，播客节目以及收听观众爆发式增长，喜马拉雅等音频平台大力布局播客内容，市场上出现专门的播客平台。
站长网2023-05-12 10:53:04
0000
ChatGPT搜索与Her打通了，搜索免费开放，居然还剧透明日直播主题
ChatGPT今天带来的是搜索功能方面的一些迭代升级（更像谷歌了）。主要有三点，私以为最大亮点是第二:根据用户反馈，优化搜索体验，移动端搜索更快，并能搜索出多模态信息;结合前几日发布的Her功能，可以在实时通话的时候进行语音搜索;免费，接下来逐步向所有ChatGPT用户开放。
站长网站长资讯2024-12-17 09:48:03
0000
站长资讯
零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本
3月，国内外模型公司动作频频。国产大模型独角兽“五小虎”之一零一万物也有诸多新动作。这不，前脚刚发布高性能向量数据库，零一万物又立马正式发布了自己的API开放平台，共为开发者提供三个版本的模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K上下文，多文档阅读理解、超长知识库构建小能手。
站长网2024-03-16 13:45:21
0001
美国作家协会发起生成式AI调查:保护作家权益与文学多样性
**划重点:**1.📢**调查背景:**为解决对AI生成图书和使用作家素材培训AI的日益关切，作家协会发起公众调查。2.📋**调查内容:**调查包含8个问题，涉及作者是否需要同意将其作品用于开发AI系统，以及是否应该获得相应补偿等议题。3.🌐**AI影响:**作家协会强调AI生成文本对写作行业的威胁，呼吁建立合理政策和法规以保护文学创作的未来。
站长网站长资讯2023-12-01 14:56:35
0000
AI预测：未来中国最有前途十个行业
未来中国最有前途的十个行业可能包括但不限于：
站长网站长资讯2023-05-24 23:38:37
0000