首页站长资讯GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI

GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI

站长网2023-09-05 20:34:561阅

【新智元导读】代码能否跑起来的不是判断可靠性的标准，用语言模型写代码还需要考虑生产环境下的预期外输入。

大型语言模型（LLM）在理解自然语言和生成程序代码方面展现出了非凡的性能，程序员们也开始在编码过程中使用Copilot工具辅助编程，或是要求LLM生成解决方案。

经过几版迭代后，目前LLM生成的代码已经很少有语法错误了，也更贴合用户输入的文本、符合预期语义，但针对LLM代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。

代码的可执行并不等同于可靠，软件的开发环境、部署环境都存在很大的不确定性。

如果直接使用LLM生成的代码，可能会因为AP误用（misuse）导致更严重的问题，例如资源泄漏、程序崩溃;最糟糕的是，使用LLM代码生成服务的用户大多数都是新手开发人员，很难识别出「貌似可运行代码」下的隐藏问题，进一步增加了漏洞代码在现实中的应用风险。

现有的代码评估基准和数据集主要专注于小任务，例如面试中的编程问题，可能不符合开发人员在工作中的实际需求。

最近，来自加州大学的两位华人研究人员发布了一个用于评估生成代码可靠性和鲁棒性的新数据集RobustAPI，包括从StackOverflow中收集得到的1208个编码问题，涉及24个主流Java API的评估。

论文链接:https://arxiv.org/pdf/2308.10335.pdf

研究人员总结了这些API的常见误用模式，并在当下常用的LLM上对其进行评估，结果表明，即使是GPT-4，也有高达62%的生成代码包含API误用问题，如果代码被实际部署，可能会导致意想不到的后果。

论文相关的数据和评估器不久后将开源。

数据收集

为了利用软件工程领域现有的研究成果，RobustAPI没有从零构建，而是基于在线问答论坛中频繁出现的Java API误用数据集ExampleCheck

研究人员从数据集中选择了23个流行的Java APIs，涵盖了字符串处理、数据结构、移动开发、加密和数据库操作等。

然后再从Stack Overflow中爬取与上述API相关的问题，只选择问题中包含在线答案的，可以保证RobustAPI是可回答的（answerable），能够更有效地评估LLM在「人类容易犯错问题」上的代码能力。

收集数据后将问题转换为JSON格式，包含四个字段:

1. id，为样本分配的唯一标识符

2. api，用来提示大型语言模型问题相关API

3. question，包括问题的标题和描述

4. origin，样本的原始URL

提示生成（prompt generation）

研究人员设计了一个提示模板，并用数据集中的样本进行填充，再从LLMs收集回复内容，并实现一个API使用检查器来评估代码的可靠性。

在少样本演示下进行实验时，每个示例都提供回复的格式，然后在最后放入数据集中的问题及相应API提示，模拟新手用户询问时提出的问题。

LLM在对话时可以识别特殊标签的结构，所以研究人员将问题和答案封装起来指示LLM生成问题的答案。

演示样本（Demonstration Samples）

为了深入分析LLMs的代码生成能力，研究人员设计了两个少样本实验:

1. one-shot-irrelevant，使用不相关的API（如Arrays.stream）作为语言模型的提示样例。

研究人员假定该示例可以消除生成代码中的语法错误。

2. one-shot-relevant，使用相同的API作为示例，包括一组问题和答案。

JAVA API误用

研究人员在使用API时，需要充分理解API的使用规则，以便实现理想的API效果。

一个典型的例子是文件操作，通过RandomAccessFile打开和写入文件时，需要注意两条使用规则:

1. 读取文件可能会引发异常。

如果在读取预期字节之前达到缓冲区限制，API将抛出IndexOutOfBoundsException异常;当该文件同时被其他进程关闭时，API将抛出ClosedChannelException。

为了处理这些异常，正确的实现应该将API包含在try-catch块中。

2. 使用后应应该关闭文件通道，否则的话，如果此代码片段位于在多个实例中并发运行的长期程序中，文件资源可能会耗尽，代码需要在所有文件操作后调用close API

另一个容易被误用的API使用规则的例子是一个特殊的数据对象TypedArray，需要开发人员调用recycle（）来手动启用垃圾收集，否则，即使不再使用此TypedArray，Java虚拟机中的垃圾收集也不会被触发。

在没有垃圾回收的情况下使用该API会导致未释放的内存消耗，在生产环境部署后，在大工作负载和高并发性下会降低甚至挂起软件系统。

在RobustAPI数据集中，研究人员总结了40个API使用规则，具体包括:

1. API的保护条件，在API调用之前应该检查，例如File.exists（）应该在调用File.createNewFile()之前;

2. API的调用顺序，例如close（）的调用应该在File.write()之后;

3. API的控制结构，例如SimpleDataFormat.parse（）应该被try-catch结构所包围。

检测API误用

现有的评估LLMs生成的代码的研究通常使用人工编写或自动测试生成的测试用例，但即使是高覆盖率的测试用例也只能覆盖语义正确性，无法模拟生产环境中的各种意外输入，无法对代码的可靠性和健壮性进行完善的评估。

为了解决这个难题，研究人员使用静态分析的方法，在不运行测试用例的情况下，通过代码结构分析代码误用，可以保证对整个程序的全面覆盖，并且比测试解决方案的效率更高。

为了评估代码中API用法的正确性，先从代码片段中提取调用结果和控制结构，然后根据API使用规则检测API误用。

代码检查器（code checker）首先检查代码片段，判断是一个方法的片段还是一个类的方法，然后就可以对代码片段进行封装，并从代码片段中构造抽象语法树(AST)。

然后检查器遍历AST，按顺序记录所有的方法调用和控制结构，从而生成一个调用序列;检查器将调用序列与API使用规则进行比较，判断每个方法调用的实例类型，并使用类型和方法作为键来检索相应的API使用规则。

最后，检查器计算调用序列和API使用规则之间的最长公共序列:如果调用序列与预期的API使用规则不匹配，则报告API误用。

研究人员使用4个语言模型（GPT-3.5，GPT-4，Llama-2，Vicuna-1.5）在RobustAPI上进行评估。

将可编译且包含API误用的答案除以所有可编译的答案后，计算得到各个语言模型的误用率。

从实验结果上来看，即便是最先进的商业模型，如GPT-3.5和GPT-4也存在误用的问题。

在零样本设置下，Llama的API误用率最低，不过大多数Llama的答案中都不包含代码。

一个与直觉相反的发现是，虽然OpenAI官方宣称GPT-4比GPT-3.5在代码生成上的性能提升达到40%，但实际上GPT-4的代码误用率要更高。

这一结果也表明，代码在现实世界生产中的可靠性和健壮性没有得到业界的重视，并且该问题存在巨大的改进空间。

参考资料:

https://arxiv.org/abs/2308.10335

GPT4写代码不如ChatGPT误用率高达62加州大学两位华人开源代码可靠性基准RobustAPI

0001

评论列表

共(0)条

相关推荐

站长资讯
我们花一个月调研了小红书种草的新机会和增长策略
随着618的临近，小红书再次成为了品牌重要的“营销战场”。面临着经济环境的不确定性，想必各大品牌都非常关注小红书种草的增长策略，希望能够挖掘出更多的增量空间。于是，我们最近启动了一个小红书种草的专项研究，通过一个月时间追踪平台的数据趋势、调研最佳实践案例，覆盖美妆、母婴、3C、服装等15个主流类目，探索了当前的挑战和创新的机会在哪里。以下为核心观点摘要1.“11”现状:挑战背后也有机遇
站长网2023-05-17 17:15:29
0000
站长资讯
阿里魔搭社区开源知识检索模型Ziya-Reader
阿里魔搭社区宣布开源Ziya-Reader。Ziya-Reader是一个针对知识检索的开源模型。当前大模型在处理多文档任务时，如果正确答案不在第一个或末尾的文档中，准确率会急剧下降。为了解决这个问题，Ziya-Reader应运而生，它可以从多个候选中找到正确的答案。
站长网2023-10-16 11:09:31
0000
站长资讯
腾讯文库正式发布：汇集亿级专业文档一键转文档编辑
快科技8月30日消息，腾讯今晚突然正式发布了一款重磅新品腾讯文库。腾讯号称为专业权威的内容消费与发布平台”，汇集海量优质内容，覆盖众多专业领域，无论是考试真题、法律合同还是求职简历都能快速找到。同时还搭载AI智能助手助力，支持一键总结、生成思维导图，快速掌握内容大纲。针对内容创作方面，腾讯文库还支持AI辅写。腾讯文库还可以无缝融合腾讯文档，随时随地点击即用。
站长网2024-08-31 16:53:30
0000
站长资讯
实时翻译工具Byrdhouse AI 可在视频通话中翻译100多种语言
ByrdhouseAI是一个强大的工具，可以在视频通话中实时翻译100多种语言。它提供了语音翻译字幕和AI驱动的实时口译功能，让用户在会议或聊天中可以将自己的语言转换成另一种语言。此外，用户还可以选择翻译的声音是男声还是女声。体验地址:https://top.aibase.com/tool/byrdhouse
站长网2024-01-17 14:22:49
0000
综艺抢人抢广告主，爱奇艺腾讯视频对垒
长视频平台的综艺大战，愈演愈烈。8月16日，爱奇艺单口喜剧竞演节目《喜剧之王单口季》正式开播，四天之后，腾讯视频脱口秀节目《脱口秀和Ta的朋友们》也官宣上线。综艺战事升级，两大长视频平台在脱口秀节目上演正面对垒。
站长网站长资讯2024-08-28 23:46:06
0001