ChatGPT回答编程问题的准确率比抛硬币还要差
站长网2023-08-08 15:40:120阅
本文概要:
1. 普渡大学研究发现,ChatGPT 在软件编程问题上的准确率不到五成。
2. ChatGPT 的答案虽然经常是错误的,但由于其全面性和清晰的语言风格,仍然具有欺骗性。
3. ChatGPT 的答案更容易犯概念错误,但在情绪表达上比 Stack Overflow 的答案更积极。
根据普渡大学的一项研究,OpenAI 的聊天机器人 ChatGPT 在超过一半的时间里对软件编程问题给出了错误的答案。
该研究分析了 ChatGPT 对517个 Stack Overflow 的问题的回答,以评估 ChatGPT 答案的正确性、一致性、全面性和简洁性。结果发现,52% ChatGPT 给出的答案是错误的,77% 的答案是冗长的。
值得注意的是,ChatGPT 的全面性和清晰的语言风格使其仍然具有欺骗性。研究人员表示,当错误不易验证或需要外部 IDE 或文档时,参与者往往无法识别错误或低估答案中的错误程度。由于其全面性和清晰的语言风格,ChatGPT 答案在39.34% 的情况下仍然受到青睐。
该论文指出,即使答案存在明显错误,12名参与者中仍有两人仍将首选答案标记为首选。论文将此归因于 ChatGPT 令人愉快、权威的风格。
此外,研究还发现 ChatGPT 的答案更容易犯概念错误,但在情绪表达上比 Stack Overflow 的答案更积极。
0000
评论列表
共(0)条相关推荐
马斯克前女友:AI 生成音乐是开源艺术 愿意平分版税
音乐产业正在思考生成式AI对其可能造成的潜伏破坏,而歌手ClaireBoucher(艺名Grimes,马斯克前女友)似乎愿意接受该技术所可能带来的一切潜在干扰。这位加拿大制作人和歌手因她于十年前推出的音乐风格独树一帜的专辑《Visions》而备受好评。周日晚她在Twitter上指出,她愿意与任何成功利用了她的声音的AI生成的歌曲平分版税。站长网2023-04-25 10:15:480000美团外卖闯香港,尚能饭否
内地市场增长受限,美团需要寻找新增量。香港地区既有与内地相似之处,又在竞争环境、配送方式和用户习惯等方面明显不同。美团既有的商业模型可以在此检验和矫正。它的第一份成绩单如何?美团外卖的香港试验,仍在进行中。站长网2023-07-13 09:09:190001星纪魅族集团完成20亿元天使+轮及A轮融资
星纪魅族宣布完成总计20亿元人民币天使轮及A轮融资,投后估值超100亿元人民币。星纪魅族集团处在智能出行赛道前沿,致力于消费电子产业与汽车产业的跨界融合,并在业内率先提出“手机域”的理念,即超越传统汽车五个域(动力域、底盘域、车身域、座舱域、自动驾驶域)之外的“第六域”,让手机真正融入并成为汽车的一部分,让消费电子为智能汽车赋能。站长网2023-11-16 16:45:340000华为MatePad 11.5 2024款上市开售:售价1699元起
华为公司今日宣布,MatePad11.52024款正式上市,起始售价为1699元。这款平板电脑以其120Hz的高刷新率屏幕和全金属一体机身设计成为市场上的新亮点。0000给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
【新智元导读】近日,来自香港大学的JihanYang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。怎样能构建更强大的AIAgent?答案是给他们一个完整而真实的世界。最近,来自香港大学的JihanYang和纽约大学的谢赛宁等人,联合发表了一项新研究:在虚拟环境中模拟现实世界。站长网2024-03-03 19:15:110000