研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%
站长网2023-11-21 17:08:510阅
要点:
美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。
通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。
研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。
通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。
论文地址:https://arxiv.org/pdf/2305.07141.pdf
多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。
研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。
然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。
此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。
0000
评论列表
共(0)条相关推荐
张朝阳谈ChatGPT:不具备情绪和创造性 人类的智慧可以控制AI
最近,搜狐的创始人和董事长兼首席执行官张朝阳以及深石集团的创始人王石进行了一次对话。在谈及近期炙手可热的ChatGPT时,张朝阳指出,“GPT算法和人类的思维方式不同,它没有人类的情感和创意,而人类可以制定更好的法律,向AI输入理念,使之成为人类的好朋友。“我们的智慧和意识可以控制AI。”站长网2023-04-17 16:02:560001在演员持续罢工之际,Netflix招聘AI产品经理 年薪90万美元
近日,Netflix发布了一份人工智能(AI)工作职位,该职位为机器学习平台产品经理,年薪在30万到90万美元之间。这份工作职位要求AI不仅要开发新的算法来推荐节目和电影,还要用于“创造出优秀的内容”。Netflix在其网站上的另一部分还提到,该公司使用AI来优化原创电影和电视节目的制作。站长网2023-07-26 11:47:320000Box 通过 Microsoft 365 Copilot 集成扩展 AI 工作
安全云内容管理提供商Box今天继续推进其生成式AI工作,宣布与Microsoft365copilot进行新的集成。新的集成是Box使用genAI帮助企业用户更好地理解Box内容的价值并从中受益的努力的进一步扩展。早在5月份,该公司就宣布了BoxAI计划,该计划将genAI嵌入Box用户体验中,以查询和汇总数据。站长网2023-07-28 15:21:080000小米卢伟冰入驻抖音 明天将主讲发布小米14 Ultra
小米集团重要合伙人及总裁卢伟冰今日宣布入驻抖音,并发布了他的首条视频,向大众展示了他的成长之路以及与小米的深厚情感。在这条精心制作的视频中,卢伟冰回顾了自己在小米的职业生涯中的重要时刻,包括他首次站在Redmi发布会的舞台上,以及他后来出任小米集团总裁的辉煌瞬间。站长网2024-02-21 14:03:200000上半年宁德时代电池出货141GWh 超所有韩国公司总和
据能源市场研究公司SNEResearch数据,今年上半年全球电池销量总计431.8GWh,总销售金额705亿美元,其中宁德时代出货141GWh,占比32.7%,销售金额201亿美元,占比28.5%,二项数据都是遥遥领先。排名第二的是LG新能源,出货量占比16.5%,销售额占比16.2%。比亚迪排在第三,出货量占比11.3%,销售额占比9.3%。站长网2023-09-29 21:40:040000