GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI
【新智元导读】代码能否跑起来的不是判断可靠性的标准,用语言模型写代码还需要考虑生产环境下的预期外输入。
大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能,程序员们也开始在编码过程中使用Copilot工具辅助编程,或是要求LLM生成解决方案。
经过几版迭代后,目前LLM生成的代码已经很少有语法错误了,也更贴合用户输入的文本、符合预期语义,但针对LLM代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。
代码的可执行并不等同于可靠,软件的开发环境、部署环境都存在很大的不确定性。
如果直接使用LLM生成的代码,可能会因为AP误用(misuse)导致更严重的问题,例如资源泄漏、程序崩溃;最糟糕的是,使用LLM代码生成服务的用户大多数都是新手开发人员,很难识别出「貌似可运行代码」下的隐藏问题,进一步增加了漏洞代码在现实中的应用风险。
现有的代码评估基准和数据集主要专注于小任务,例如面试中的编程问题,可能不符合开发人员在工作中的实际需求。
最近,来自加州大学的两位华人研究人员发布了一个用于评估生成代码可靠性和鲁棒性的新数据集RobustAPI,包括从StackOverflow中收集得到的1208个编码问题,涉及24个主流Java API的评估。
论文链接:https://arxiv.org/pdf/2308.10335.pdf
研究人员总结了这些API的常见误用模式,并在当下常用的LLM上对其进行评估,结果表明,即使是GPT-4,也有高达62%的生成代码包含API误用问题,如果代码被实际部署,可能会导致意想不到的后果。
论文相关的数据和评估器不久后将开源。
数据收集
为了利用软件工程领域现有的研究成果,RobustAPI没有从零构建,而是基于在线问答论坛中频繁出现的Java API误用数据集ExampleCheck
研究人员从数据集中选择了23个流行的Java APIs,涵盖了字符串处理、数据结构、移动开发、加密和数据库操作等。
然后再从Stack Overflow中爬取与上述API相关的问题,只选择问题中包含在线答案的,可以保证RobustAPI是可回答的(answerable),能够更有效地评估LLM在「人类容易犯错问题」上的代码能力。
收集数据后将问题转换为JSON格式,包含四个字段:
1. id,为样本分配的唯一标识符
2. api,用来提示大型语言模型问题相关API
3. question,包括问题的标题和描述
4. origin,样本的原始URL
提示生成(prompt generation)
研究人员设计了一个提示模板,并用数据集中的样本进行填充,再从LLMs收集回复内容,并实现一个API使用检查器来评估代码的可靠性。
在少样本演示下进行实验时,每个示例都提供回复的格式,然后在最后放入数据集中的问题及相应API提示,模拟新手用户询问时提出的问题。
LLM在对话时可以识别特殊标签的结构,所以研究人员将问题和答案封装起来指示LLM生成问题的答案。
演示样本(Demonstration Samples)
为了深入分析LLMs的代码生成能力,研究人员设计了两个少样本实验:
1. one-shot-irrelevant,使用不相关的API(如Arrays.stream)作为语言模型的提示样例。
研究人员假定该示例可以消除生成代码中的语法错误。
2. one-shot-relevant,使用相同的API作为示例,包括一组问题和答案。
JAVA API误用
研究人员在使用API时,需要充分理解API的使用规则,以便实现理想的API效果。
一个典型的例子是文件操作,通过RandomAccessFile打开和写入文件时,需要注意两条使用规则:
1. 读取文件可能会引发异常。
如果在读取预期字节之前达到缓冲区限制,API将抛出IndexOutOfBoundsException异常;当该文件同时被其他进程关闭时,API将抛出ClosedChannelException。
为了处理这些异常,正确的实现应该将API包含在try-catch块中。
2. 使用后应应该关闭文件通道,否则的话,如果此代码片段位于在多个实例中并发运行的长期程序中,文件资源可能会耗尽,代码需要在所有文件操作后调用close API
另一个容易被误用的API使用规则的例子是一个特殊的数据对象TypedArray,需要开发人员调用recycle()来手动启用垃圾收集,否则,即使不再使用此TypedArray,Java虚拟机中的垃圾收集也不会被触发。
在没有垃圾回收的情况下使用该API会导致未释放的内存消耗,在生产环境部署后,在大工作负载和高并发性下会降低甚至挂起软件系统。
在RobustAPI数据集中,研究人员总结了40个API使用规则,具体包括:
1. API的保护条件,在API调用之前应该检查,例如File.exists()应该在调用File.createNewFile()之前;
2. API的调用顺序,例如close()的调用应该在File.write()之后;
3. API的控制结构,例如SimpleDataFormat.parse()应该被try-catch结构所包围。
检测API误用
现有的评估LLMs生成的代码的研究通常使用人工编写或自动测试生成的测试用例,但即使是高覆盖率的测试用例也只能覆盖语义正确性,无法模拟生产环境中的各种意外输入,无法对代码的可靠性和健壮性进行完善的评估。
为了解决这个难题,研究人员使用静态分析的方法,在不运行测试用例的情况下,通过代码结构分析代码误用,可以保证对整个程序的全面覆盖,并且比测试解决方案的效率更高。
为了评估代码中API用法的正确性,先从代码片段中提取调用结果和控制结构,然后根据API使用规则检测API误用。
代码检查器(code checker)首先检查代码片段,判断是一个方法的片段还是一个类的方法,然后就可以对代码片段进行封装,并从代码片段中构造抽象语法树(AST)。
然后检查器遍历AST,按顺序记录所有的方法调用和控制结构,从而生成一个调用序列;检查器将调用序列与API使用规则进行比较,判断每个方法调用的实例类型,并使用类型和方法作为键来检索相应的API使用规则。
最后,检查器计算调用序列和API使用规则之间的最长公共序列:如果调用序列与预期的API使用规则不匹配,则报告API误用。
研究人员使用4个语言模型(GPT-3.5,GPT-4,Llama-2,Vicuna-1.5)在RobustAPI上进行评估。
将可编译且包含API误用的答案除以所有可编译的答案后,计算得到各个语言模型的误用率。
从实验结果上来看,即便是最先进的商业模型,如GPT-3.5和GPT-4也存在误用的问题。
在零样本设置下,Llama的API误用率最低,不过大多数Llama的答案中都不包含代码。
一个与直觉相反的发现是,虽然OpenAI官方宣称GPT-4比GPT-3.5在代码生成上的性能提升达到40%,但实际上GPT-4的代码误用率要更高。
这一结果也表明,代码在现实世界生产中的可靠性和健壮性没有得到业界的重视,并且该问题存在巨大的改进空间。
参考资料:
https://arxiv.org/abs/2308.10335
特斯拉降价是为打“价格战”?马斯克否认并透露原因
日前,有市场分析人士在推特发文称,特斯拉在电动汽车和燃油汽车间开启了价格战,而这才刚刚开始。埃隆马斯克否认特斯拉开启价格战”。马斯克称,特斯拉降价,只是为了覆盖更多消费者,并非为打价格战”。马斯克此前也表示,降价的原因不是大家对特斯拉没有需求,而是大家没钱负担不起,只有把车价降下来,才是真正的满足需求。站长网2023-04-16 15:01:460000扎克伯格警告:AI GPU 瓶颈已缓解 但功耗将限制 AI 增长
在最近的一次采访中,Facebook联合创始人兼首席执行官马克·扎克伯格表示,长期的GPU荒已经基本结束,人工智能的增长和发展短期内不会受到资本限制的影响,而是将面临能源问题的挑战。他指出,新数据中心的能耗已经达到惊人的50至100兆瓦,甚至可能达到150兆瓦,预示着能源限制可能成为工业的下一个主要关键点。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-05-13 15:03:000000微信广告上线看一看焦点卡片广告 新增阅读人群触达场景
微信广告推出了新的功能——焦点卡片广告,可以触达更多阅读人群。据介绍,在微信的“发现”页面进入“看一看”后,“在看”页面将会展示品牌广告的置顶焦点图。此外,“看一看”场景的原生品牌内容集合落地页还能一站式展示品牌的视频号、公众号、小程序等内容。在沉浸式阅读的“看一看”场景下,用户可以高效获取品牌的重大事件资讯,了解品牌的故事和产品信息,并通过在看和分享来进行社交传播和扩散。站长网2023-06-29 11:40:010000科学家发现,AI聊天机器人只在你认为它有用时才有用
文章概要:-MIT研究人员发现,被“预设”期待某种AI体验的受试者几乎总是获得那种体验。-研究表明,聊天机器人引人注目的能力可能源自用户将期望投射到系统上。-研究人员认为整个文化对AI的看法可能影响技术的使用和发展。站长网2023-10-11 18:15:570000华为HarmonyOS NEXT系统10月8日开启公测
在今日华为秋季新品发布会上,余承东宣布HarmonyOSNEXT系统将于10月8日对公众开放测试。Mate60和X5系列手机、以及13.2英寸MatePadPro平板将作为首批设备参与公测,这些也是最先启动Beta测试的设备。用户可以通过“我的华为”APP中的“升级尝鲜”功能申请参与升级。站长网2024-09-29 08:44:150000