首页站长资讯研究：AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

研究：AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

站长网2023-08-30 16:43:280阅

文章概要:

1. AI模型在回答Java编码问题时，仍存在许多API误用问题。GPT-3.5和GPT-4的API误用率分别达到49.83%和62.09%。

2. Llama2API误用率最低，但由于它生成的代码较少，误导性很大。一旦生成更多代码，其误用率也大幅上升。

3. 添加相关API使用示例能稍微改善结果，但仍有改进空间。代码的可靠性和稳健性仍是难题。

近期，计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估，结果发现这些模型的代码质量仍然不尽如人意。

研究人员收集了1208个StackOverflow上的Java编码问题，这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型（GPT-3.5、GPT-4、Llama2和Vicuna-1.5）进行了回答，并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性，即抵御失败和意外输入的能力，以及承受高工作负载的能力。

加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4，以及大型模型系统组织的两个开放模型:Meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本，其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant，其中提供的示例与问题无关;一次性相关，其中提示中提供了正确的 API 使用示例。

这些模型在零样本测试中表现出的总体 API 误用率如下:

GPT-3.5（49.83%）;GPT-4(62.09%);Llama2(0.66%);和Vicuna-1.5 (16.97%)。

简单的说就是，在零样本测试中，GPT-3.5和GPT-4的API误用率较高，分别达到49.83%和62.09%。

Llama2的误用率最低，只有0.66%，但这主要是因为其大多数回答并不包含任何代码。

在添加不相关示例的一次样本测试中，各模型的误用率有所上升，尤其是Llama2上的升幅最大。这说明一旦生成了更多代码，Llama2的误用问题也显现出来。

对于一次性无关测试，误用率分别为:

GPT-3.5（62.00%）;GPT-4(64.34%);Llama2(49.17%);和 Vicuna-1.5(48.51%)。

而在提供相关示例的一次样本测试中，误用率有所下降，但仍普遍存在，误用率如下:

GPT-3.5（31.13%）;GPT-4(49.17%);Llama2(47.02%);和 Vicuna-1.5(27.32%)。

研究认为，大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性，而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫，而不仅仅追求生成更多代码。

研究 AI模型仍不擅长生成干净代码GPT4的API误用率达62

0000

评论列表

共(0)条

相关推荐

站长资讯
视觉中国旗下vcg.com上线AIGC新功能“去除背景”
近日，视觉中国旗下网站vcg.com上线AIGC新功能——去除背景。去除背景功能基于人工智能技术，能够精确识别并抠取图中的目标物体，并且对于背景复杂及细节丰富的图像也具备处理能力。该功能使用操作十分简单，用户只需访问图片详情页，通过使用AI创意工具，选择去除背景功能，即可在几秒内借助AI智能算法将图片中的目标物体抠取出来。
站长网2023-07-08 14:06:14
0002
抖音粉丝超1858万成车圈顶流！雷军：应该算小有名气的博主吧
快科技4月21日消息，最近一段时间，车圈掀起一股网红风”，在一众车圈大佬中，雷军称得上网红级人物。日前，雷军在其个人抖音号发视频展示小米SU7的语音控车功能，雷军还称：我在抖音，应该算一个小有名气的博主了吧”。在评论区，有网友调侃道，1800多万粉丝，已经不是小有名气，而是名气很大，建议你接几个广告，可以增加很多收入”重新定义小有名气”等等。
站长网站长资讯2024-04-21 16:36:21
0000
站长资讯
智己汽车发布“智己生成式大模型Beta版” 预计10月上线
智己汽车正式发布“智己生成式大模型Beta版”，并将在10月与智己LS6车型一起交付并上线。据官方介绍，该大模型融合了千亿级参数，具备自然语言处理和机器学习能力，能够自动编排、自学习进化。它可以通过多重意图识别，精准理解用户的真实需求和指令，并结合历史交流偏好和习惯，为用户生成个性化、专属的出行体验。
站长网2023-08-28 08:47:34
0000
站长资讯
SensorTower：王者荣耀4月吸金2.13亿美元蝉联冠军
今日，手游情报平台SensorTower公布了2023年4月全球热门移动游戏收入TOP10。数据显示，2023年4月腾讯《王者荣耀》在全球AppStore和GooglePlay吸金2.13亿美元，蝉联全球手游畅销榜冠军。
站长网2023-05-17 10:24:26
0001
站长资讯
Midjourney大揭秘：十大技巧让你成为使用高手！
在探索Midjourney的深度中，每个创作者都希望能够更高效地利用其功能。有时，一个小技巧就能为你打开全新的创作视野。Midjourney作为一个强大的AI艺术工具，如何才能充分挖掘其潜力?如何避免在使用过程中的常见陷阱，并将其应用到日常的艺术创作中?
站长网2023-09-19 09:05:54
0000