GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%
要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench,揭示了其高达90%的错误率,包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉,强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答,关注视觉错觉和知识幻觉,揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足,以及处理多个图像之间的时间关系和常识查询问题。
近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。
研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。
HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。
这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。
时尚UP直播带货3000W,重估B站女性消费力
继@宝剑嫂之后,B站诞生了第二位女性头部带货主播。8月19日,时尚区UP主@鹦鹉梨在B站开启了她的专场直播带货,直播间主打服饰鞋包、日用百货,商品直连品牌淘宝官方店铺,用户跳转即可购买。开播之前,这场直播就已达成超16.9万人次预约,当晚,超70万人冲进鹦鹉梨直播间,不乏有用户评论——“学生党第一次在直播间买衣服就痛失2000”“第一次B站直播消费给了橘梨娜”。站长网2023-08-25 09:07:010000腾讯宣布上线吃瓜地图 帮助瓜农增加收入
腾讯地图联合大河报和河南省各地城管系统推出了“河南夏日瓜果地图”,覆盖了全省15个地市的1140余个瓜果销售点位。用户只需打开腾讯地图App或小程序,搜索“河南吃瓜地图”,即可快速找到最近的销售点,方便地购买新鲜瓜果,同时也帮助瓜农增加收入。站长网2024-07-12 11:58:080000印度支付宝Paytm创始人成立基金押注AI和电动汽车
🔍划重点:1.Paytm创始人VijayShekharSharma成立“VSSInvestmentsFund”,拟投资人工智能和电动汽车初创公司,基金总规模达3000万卢比。2.基金由VijayShekharSharma旗下公司赞助,专注印度科技孵化的环保和可持续性初创公司。站长网2023-10-24 22:17:250000黑神话悟空定档 将于2024年8月20日发售
在今天的TGA2023盛典上,游戏科学发布了最新的宣传片,展示了《黑神话:悟空》中将会出现的各种怪物敌人。最令人瞩目的是,官方在宣传片中宣布,这款备受期待的国产3A大作将于2024年8月20日正式发售,并且将登陆PS5、XSX|S和PC平台。站长网2023-12-08 10:57:450001TSalesforce 领投! Together AI 最新融资估值飙升至12.5亿美元
据路透社报道,TogetherAI宣布在最新一轮融资中筹集了1.06亿美元,由SalesforceVentures领投,使该公司估值达到12.5亿美元。此次融资还得到了CoatueManagement、LuxCapital和EmergenceCapital等现有投资者的支持。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-14 14:40:390000