研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%
站长网2023-11-21 17:08:510阅
要点:
美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。
通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。
研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。
通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。

论文地址:https://arxiv.org/pdf/2305.07141.pdf
多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。
研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。
然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。
此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。
0000
评论列表
共(0)条相关推荐
信通院::6G 将在 2030 年左右实现商用
据央视新闻报道,根据中国信息通信研究院副院长王志勤的说法,6G技术是5G的一代更新技术,预计在2030年左右实现商用,而标准制定时间则在2025年左右。6G技术将融合通信和感知、通信和人工智能,以及泛在物联等新场景,不仅仅是提供更快的速率,而是将更多关注社会管理和智能体方面的事情。与5G相比,6G基站将支持通信和感知的功能,可以感知周围环境和物体的形状和运动,进而催生新业务。0000百度地图推出隧道车道级导航 定位不准确可申请100元赔付
百度地图全球首次推出隧道车道级导航,为重庆3000万用户解决隧道导航问题。该导航功能通过自研的“北斗高精”融合定位技术,实现了进出隧道不漂移、车标稳定跟随等特点。同时,车道级导航可以在隧道内精准定位行驶车道,并提供实时展示车道级路况和道路事件,提供安全变道指引。为了保证服务质量,百度地图推出限时100元赔付活动,用户在使用百度地图导航时如发现定位不准确可以申请错必赔保障。站长网2023-08-08 17:21:000000GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测
GPT-4太吃算力,微软被爆内部制定了PlanB,训练更小、成本更低的模型,进而摆脱OpenAI。GPT-4太吃算力,连微软也顶不住了!今年,无数场微软AI大会上,CEO纳德拉台前激动地官宣,将GPT-4、DALL·E3整合到微软「全家桶」。微软全系产品已被OpenAI的模型重塑,愿景是让AI成为每个人的生活伴侣。然而在幕后,因GPT-4运行成本太高,微软却悄悄地搞起了planB。站长网2023-09-27 14:30:470000全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?
图源备注:图片由AI生成,图片授权服务商Midjourney回想两个月前,LLaMA2的开源,曾以一己之力改变了大模型领域的竞争格局。站长网2023-09-17 10:32:520001EmbedAI:允许用户使用自己的数据来训练ChatGPT
EmbedAI是一个创新平台,允许用户使用自己的数据来训练ChatGPT,并将其嵌入到自己的网站或应用中。这个平台支持在各种数据源上训练ChatGPT,包括文件、网站、Notion文档甚至YouTube。官网地址:https://www.thesamur.ai/站长网2023-12-19 11:17:410000