首页站长资讯GPT-4作弊被抓，吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

GPT-4作弊被抓，吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

站长网2023-11-14 14:06:172阅

GPT-4解决网络名梗“吉娃娃or蓝莓松饼”，一度惊艳无数人。

然鹅，现在它被指出“作弊”了!

全用原题中出现的图，只是打乱顺序和排列方式。

结果，最新版全模式合一的GPT-4不但数错图片数量，原来能正确识别的吉娃娃也识别出错了。

那么为什么GPT-4在原图上表现的这么好呢?

搞这项测试的UCSC助理教授Xin Eric Wang猜测，原图在互联网上太流行，以至于GPT-4在训练时多次见过原答案，还给背了下来。

图灵奖三巨头中的LeCun也关注此事，并表示:

警惕在训练集上测试。

泰迪和炸鸡也无法区分

原图究竟有多流行呢，不但是网络名梗，甚至在计算机视觉领域也成了经典问题，并多次出现在相关论文研究中。

那么抛开原图的影响，GPT-4能力究竟局限在哪个环节?许多网友都给出了自己的测试方案。

为了排除排列方式太复杂是否有影响，有人修改成简单3x3排列也认错很多。

有人把其中一些图拆出来单独发给GPT-4，得到了5/5的正确率。

但Xin Eric Wang认为，把这些容易混淆的图像放在一起正是这个挑战的重点。

终于，有人同时用上了让AI“深呼吸”和“一步一步地想”两大咒语，得到了正确结果。

但GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”，也暴露了原图确实可能存在于训练数据里。

最后也有人测试了经常一起出现的“泰迪or炸鸡”测试，发现GPT-4也不能很好分辨。

但是这个“蓝莓or巧克力豆”就实在有点过分了……

视觉幻觉成热门方向

大模型“胡说八道”在学术界被称为幻觉问题，多模态大模型的视觉幻觉问题，已经成了最近研究的热门方向。

在EMNLP2023一篇研究中，构建了GVIL数据集，包含1600个数据点，系统性的评估视觉幻觉问题。

研究发现，规模更大的模型更容易受到错觉的影响，而且更接近人类感知。

另一篇刚出炉的研究则重点评估了两种幻觉类型:偏差和干扰。

偏差指模型倾向于产生某些类型的响应，可能是由于训练数据的不平衡造成的。

干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。

研究中指出GPT-4V一起解释多个图像时经常会困惑，单独发送图像时表现更好，符合“吉娃娃or松饼”测试中的观察结果。

流行的缓解措施，如自我纠正和思维链提示并不能有效解决这些问题，并测试了LLaVA和Bard等多模态模型存在相似的问题。

另外研究还发现，GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。

比如GPT-4V能正确数出七个小矮人白雪公主，却把七个葫芦娃数成了10个。

参考链接:

[1]https://twitter.com/xwang_lk/status/1723389615254774122

[2]https://arxiv.org/abs/2311.00047

[3]https://arxiv.org/abs/2311.03287

GPT4作弊被抓吉娃娃or松饼打乱顺序就出错LeCun警惕在训练集上测试

0002

评论列表

共(0)条

相关推荐

站长资讯
阿里云四大金刚简史
阿里集团分拆后，所有人都想知道，谁会成为最先上市的新公司。一定程度上，这代表业务独立性强，潜力大，也更受资本市场欢迎。阿里云智能是热门选手之一。在官方给出的实施方案中，以阿里云和钉钉为核心的云智能业务是拆分最彻底的板块。在股权和公司治理上，是一家与阿里集团完全独立的新公司。时间表也已经给出:未来12个月内完成拆分和上市。
站长网2023-06-10 08:59:51
0000
站长资讯
每周AI大事件|安卓版ChatGPT上线、OpenAI关闭AI检测器、B站推大模型
欢迎来到站长之家的[每周AI大事件]，这里记录了过去一周值得关注的AI领域热点内容，帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]网易有道发布“子曰”大模型可为学生提供个性化分析指导网易有道正式发布垂直教育行业的大模型“子曰”。有道表示，在内部调研中，子曰大模型的翻译能力已经优于ChatGPT、超过了市面上所有主流翻译引擎。天猫精灵宣布“精灵大模型”升级
站长网2023-07-28 09:52:46
0002
站长资讯
傻瓜式操作！开源贴纸制作工具StickerBaker 输入关键词就能生成卡通贴纸
StickerBaker是一个开源的贴纸制作工具，利用人工智能技术来制作各种有趣的贴纸。无论是想要一个简单的猫咪贴纸还是想要制作一系列多样化的贴纸，StickerBaker都能满足你的需求。
站长网2024-02-27 14:19:18
0001
站长资讯
昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2
昆仑万维表示，其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率，超过了GPT-3.5和LLaMA2-70B，达到了全球领先水平，接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色，准确率均高于其他主流大模型。同样，在中文开源数据集CMATH测试中，天工大模型也表现优秀，准确率超过了其他主流大模型。
站长网2023-09-18 08:34:11
0000
站长资讯
吉利与雷诺集团签署合资协议携手打造动力总成技术公司
今日，吉利控股集团和吉利汽车控股有限公司与雷诺集团签署了一项50:50的约束性合资协议，成立一家新公司，在全球范围内研发、制造和供应先进的混合动力总成和高效的燃油动力总成。吉利和雷诺集团将把相关知识产权转入各自的运营中心，让新公司能完全自主开发未来动力总成技术，满足各类市场需求。凭借互补的产品组合和全球性业务布局，新公司产品可涵盖全球80%的燃油动力和混合动力汽车市场应用需求。
站长网2023-07-12 09:09:56
0000