研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%
站长网2023-11-21 17:08:510阅
要点:
美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。
通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。
研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。
通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。
论文地址:https://arxiv.org/pdf/2305.07141.pdf
多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。
研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。
然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。
此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。
0000
评论列表
共(0)条相关推荐
推特再次“强抢”用户账号!仍未给予任何补偿
快科技8月6日消息,早些时候,推特在更名X后,在没有实质补偿的前提下,强制占用了一名用户的账号@X”。现在,推特再次动手,强抢”了另一名用户经营16年的账号:@music。据悉,@music是JeremyVaught持续运营16年的账号,被用于发布各种流派的音乐新闻和表演,拥有超过50万的粉丝。站长网2023-08-06 14:09:490000FTC 正在调查 OpenAI 的 ChatGPT 是否对人们构成声誉损害
美国联邦贸易委员会(FTC)据报道已经开始对OpenAI展开调查,以调查该公司的ChatGPT对人员的言论是否“虚假,误导,贬低或有害”。尽管这不太可能导致突然的制裁,但这表明FTC正在对AI行业的潜在违规行为采取更多行动。根据《华盛顿邮报》的报道,FTC致函OpenAI,要求提供关于贬低言论的投诉的信息。FTC拒绝置评,指出其调查是非公开的。站长网2023-07-14 17:24:450001魅族21正面照公布 1.74mm四等边
魅族21的正面照片近日被曝光,魅族集团董事长兼CEO沈子瑜在微博上发布了这一消息,并强调这是通过物理四等边技术实现的。魅族21的正面设计极具视觉冲击力,采用了6.55英寸三星直屏,其上下左右边框宽度均为1.74mm,上部中间有一个摄像头,带来了极致的视觉效果。这一设计理念源于魅族对产品完美无缺的追求,希望给用户带来真正的物理四等边体验,而非视觉上的四等边。站长网2023-11-15 18:27:300000董宇辉:一个知识分子网红的愤怒
“我收到的不全是好意,我感受到的也不全是真诚。”2023年5月,董宇辉在接受环球网的采访时如此形容自己一年多的直播生涯。在这一年里,他为了展现最好的形象“大脑一直在高速运转”,因此“长期睡眠很差,颈椎也很差”。与此同时,他还需要接受来自四面八方的“中伤、羞辱、攻击和讽刺”。尽管这期采访视频的主题是“快乐就是要先爱自己”,但从董宇辉的表情来看,当时的他并不快乐。站长网2024-03-03 21:41:120000你升级了没 中国移动:5G套餐客户数已达7.59亿
快科技11月20日消息,今天,中国移动发布了2023年10月客户数据公告,公告显示截至今年10月份,中国移动5G套餐客户数达到近7.59亿户。在客户总数上,中国移动10月份净增客户74.6万户,前10个月累计净增客户1577.1万户,客户总数达到了约9.91亿户。在有线宽带业务方面,中国移动10月份净增客户169.6万户,前10个月累计净增客户2421.2万户,客户总数达到了将近3亿户。站长网2023-11-20 20:56:050000