GPT-4懒癌爆发!代码比较任务中完成率降低近1/4

站长网2024-02-05 14:43:050阅

划重点:

1. 😟 网友实测发现，GPT-4在代码比较任务中表现下滑，完成率降低了近四分之一。

2. 🔄 有网友指出，新版本的ChatGPT回复虽然长度增加，但很多内容都是车轱辘话，干正事仍然摆烂。

3. 💡 尽管奥特曼表示GPT-4在新的一年应该改进，但网友对其变懒的原因及采用的优化策略仍感困惑。

近期，GPT-4的“懒惰”现象再度成为热议话题。网友们通过实际测试发现，GPT-4在代码比较任务中的表现下降显著，完成率降低了近四分之一。一些用户反馈称，完成度不仅不高，而且生成的文本还会被分割成小块，使用时需要逐一复制，给用户带来不便。

尽管有博主表示在尝试给一年级孩子做学习用的小游戏时效果不错，但仍有人质疑ChatGPT的实际应用价值。有网友指出，尽管回复长度增加，但很多内容都是车轱辘话，干正事依旧摆烂。有用户甚至让ChatGPT进行文本翻译测试，结果却叽里呱啦说了一堆却不翻译。

针对这一发现，有人使用GitHub上开源的“lazy benchmark”对比了GPT-4的新旧版本，结果显示新版的完成率较旧版降低了近四分之一。具体而言，在代码比较任务中，旧版能完成的比例为57%，而新版仅为44%。

对于GPT-4变懒的原因，奥特曼并未做进一步说明，仅表示新的一年应该有所改进。之前的研究表明，GPT-4的惰性可能与时间相关，但这并不能完全解释表现不升反降的现象。

不过，网友们总结了一些“土办法”以降低ChatGPT的惰性。例如，告诉它“我没有手指”就能得到相对完整的代码，而不是一段段碎片。另外，告诉ChatGPT自己会“给小费”也能激发其工作动力，其中10美元的小费金额被发现是最能提高性价比的。

GPT-4的“懒惰”问题引起了广泛关注。虽然奥特曼表态在新的一年应该有所改进，但网友们仍对其实际表现及优化策略感到困扰。这一现象或许会在新年伊始有所缓解，但具体的改进措施仍有待进一步揭示。

GPT4懒癌爆发代码比较任务中完成率降低近14

0000

评论列表

共(0)条

相关推荐

站长资讯
三部门：延续和优化新能源汽车车辆购置税减免政策
财政部、税务总局、工业和信息化部联合发布《关于延续和优化新能源汽车车辆购置税减免政策的公告》称，对购置日期在2024年1月1日至2025年12月31日期间的新能源汽车免征车辆购置税。其中，每辆新能源乘用车免税额不超过3万元;对购置日期在2026年1月1日至2027年12月31日期间的新能源汽车减半征收车辆购置税，其中，每辆新能源乘用车减税额不超过1.5万元。
站长网2023-06-21 15:26:08
0000
站长资讯
智能的本质就是压缩？马毅团队5年心血提出「白盒」Transformer，打开LLM黑盒！
【新智元导读】来自UC伯克利，港大等机构的研究人员，开创性地提出了一种「白盒」Transformer结构——CRATE。他们通过将数据从高维度分布压缩到低维结构分布，实现有效的表征，从而进一步实现了有竞争力的模型性能。这也引发了一个更为深远的讨论——难道智能的本质就是压缩吗?AI界大佬对于大模型的安全问题一直以来争吵不休，全都归咎于神经网络「黑盒」，让所有人捉摸不透。
站长网2023-11-27 14:01:41
0002
站长资讯
百度称萝卜快跑明年开始盈利已在11城启动载人测试运营
站长之家（ChinaZ.com）7月12日消息:百度的无人驾驶出租车服务“萝卜快跑”最近成为了热议的焦点，其服务已在包括北京、武汉、重庆、深圳和上海在内的11个城市启动了载人测试运营，吸引了社会的广泛关注。
站长网2024-07-12 14:07:34
0000
站长资讯
报告显示全球使用最多的简单密码排行：“123456”再次登顶
密码管理解决方案提供商NordPass近日发布报告，称“123456”是2023年用户使用最多的简单密码，可以在不到1秒内完成破解，凸显了用户对网络安全问题的漠视。
站长网2023-11-18 13:47:33
0000
站长资讯
B站成立交易生态中心，加强商业化交易能力
据新浪科技消息，B站今日发布内部邮件，宣布将整合多个团队，成立新的一级部门——交易生态中心，并由公司COO李旎（Carly）兼任负责人。该邮件指出，交易生态中心将合并电商平台部，并将原电商事业部的产品和运营团队，以及主站商业中心/带货项目组的部分团队纳入其中。
站长网2023-06-29 23:46:23
0000