研究发现 52% 的 ChatGPT 编程问题回答错误
划重点:
- 研究人员发现,ChatGPT 生成的编程问题答案中有52% 是错误的。
- ChatGPT 的答案在语言上更正式和分析性更强,但存在信息不准确、冗长和与人类答案不一致的问题。
- 尽管存在严重缺陷,但许多人类程序员更偏好 ChatGPT 的答案。
在过去的几年里,计算机程序员纷纷转向诸如 OpenAI 的 ChatGPT 之类的聊天机器人来帮助他们编码,这对 Stack Overflow 等网站造成了打击,导致其去年不得不裁员近30% 的员工。然而,问题在于,普度大学的研究团队在计算机 - 人类交互会议上发布了研究成果,发现 ChatGPT 生成的编程问题答案中有52% 是错误的。
图源备注:图片由AI生成,图片授权服务商Midjourney
对于一个人们依赖于准确性和精确性的程序来说,这一比例是惊人的,这也突显出其他最终用户如作家和教师所经历的问题:像 ChatGPT 这样的 AI 平台经常在空中凭空产生完全错误的答案。研究人员在研究中回顾了517个 Stack Overflow 的问题,并分析了 ChatGPT 尝试回答这些问题的结果。他们写道:“我们发现52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类答案更冗长,78% 的答案与人类答案存在不同程度的不一致”。
该团队还对随机选择的2000个 ChatGPT 答案进行了语言分析,发现这些答案 “更正式和分析性更强”,同时表现出 “更少的负面情绪” —— 这是 AI 倾向于产生的单调而愉快的语气。尤其令人担忧的是,许多人类程序员似乎更喜欢 ChatGPT 的答案。普度大学的研究人员对12名程序员进行了调查,并发现他们以35% 的比例更倾向于选择 ChatGPT,并且在39% 的情况下没有发现 AI 生成的错误。
为什么会发生这种情况呢?这可能只是因为 ChatGPT 比在线人更有礼貌。研究人员写道:“后续的半结构化访谈揭示出,礼貌的语言、文雅而教科书般的回答方式以及全面性是 ChatGPT 答案看起来更具说服力的主要原因之一,因此参与者放低了警惕,忽略了 ChatGPT 答案中的一些错误信息”。
这项研究表明,ChatGPT 仍然存在重大缺陷,但这对于被 Stack Overflow 裁员的人或者不得不纠正 AI 生成的代码错误的程序员来说是一个苦涩的安慰。
黑鲨将推出S1 Pro AI智能手表 配备百度“文心一言”技术
黑鲨手机官方宣布,他们将推出一款名为黑鲨智能手表的新型智能设备。据透露,这款智能手表分为黑鲨S1Pro和S1Classic两个版本,它们都搭载了黑鲨首创的游戏健康监测模式。据猜测,黑鲨智能手表能够记录玩家的游戏类型和时长,如果发现游戏时间过长,将会向玩家发出健康提醒。站长网2023-10-16 11:14:320000MiniMax推出人生搭子「海螺 AI」 已接入自研多模态大模型
MiniMax公司推出了一款人生搭子产品,名为「海螺AI」,也可以称为「小海螺」。这款产品可以帮助学生、职场新人、自由工作者、创作者等各类人群,作为一个外挂大脑和人生搭子,帮助化解信息过载和高速运转带来的压力。产品背后接入了MiniMax自研的多模态大模型,让小海螺具备智能高效的特点,支持处理长篇内容,同时也是一个有温度的产品,能够理解情感并耐心倾听用户。站长网2024-05-15 10:16:160000B站给16位UP主颁了个商业奖,释放出哪些信号?
2024年,UP主如何在B站优雅吸金?1月6日的2023百大UP主盛典上,B站公布的16个商业单项奖给出了参考答案。有的UP主从学习博主转型做汽车科普,靠硬核讲解获得粉丝和品牌的双重信任;有的UP主凭借“丝滑”植入,吸引头部品牌稳定复投;还有的UP主精准把握B站用户成长转型需求进军家居带货,双十一创下直播带货全渠道GMV16.8亿元的战绩。0003西工大李学龙团队探索人工智能伦理计算 突破伦理的定量计算瓶颈
要点:1.西北工业大学李学龙团队探索人工智能伦理计算,试图建立伦理的定量计算框架,以解决技术伦理问题。2.人工智能伦理治理已引起广泛关注,但伦理的抽象性使规范难以付诸实践。3.人工智能伦理计算分为高阶伦理认知和低阶伦理认知两种范式,旨在规范机器的伦理行为。站长网2023-10-13 14:16:040000