GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%
要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench,揭示了其高达90%的错误率,包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉,强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答,关注视觉错觉和知识幻觉,揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足,以及处理多个图像之间的时间关系和常识查询问题。
近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。
HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。
这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。
抖音:2023年全年预警并处置不当言论相关事件5004起
2023年,抖音持续加强对网络暴力信息的治理。全年预警并处置不当言论相关事件5004起,超过220万用户参与反网暴倡议。抖音采取了多项举措保护网暴受害者,包括完善受害者识别模型,主动发现疑似网暴受害者并分梯度进行保护和干预。抖音还加强了“一键防暴”功能,上线“拒绝网暴专区”,为用户提供屏蔽负面信息的功能。同时,抖音设置了网暴举报入口,并与中国法律咨询中心合作,提供免费法律咨询服务。站长网2024-01-09 14:16:0700002024,大模型杀进“决赛圈”
HenryChesbrough在著作《通过技术创新盈利势在必行》中,曾提出过一个创新的“漏斗模型”。开放式创新一开始鼓励百花齐放,但最终只有10%的技术能够通过这个漏斗,成功抵达目标市场targetmarket,进入到商业化与产业化的下一个阶段,而其余的90%的技术,逐渐淡出人们的视野。大模型的2024,就经历了漏斗秩序的残酷检验。0000谷歌豪掷6000万美元购买Reddit 数据 用来训练AI模型
划重点:⭐谷歌与Reddit达成6000万美元合作协议,谷歌将使用Reddit数据训练AI模型。⭐Reddit作为数据资源丰富的社交媒体平台,成为AI模型训练的宝贵来源。⭐Reddit股东Altman是第三大股东,同时OpenAICEO,引发讨论。站长网2024-02-28 12:04:280000小米副董事长林斌回应减持公司股票:用于捐赠、慈善!
快科技6月22日消息,近日小米集团副董事长林斌减持行为引发行业关注。据悉,林斌在6月4日至6月6日期间,累计减持小米集团1000万股股份,按照每股均价计算,合计套现约1.79亿港元,约合人民币1.66亿元。有投资者认为这是在减持套现,违反了当初的承诺。对此,林斌本人今早通过微博发文回应:站长网2024-06-22 23:42:130000小米或将在12月底举办发布会 公布小米汽车相关信息
据博主透露,小米汽车的首场发布会预计将于12月底在北京举行,届时将公开新车的所有信息,并同步开启盲订。该博主表示,小米汽车选择在2023年12月27日,即小米宣布造车的第1000天举办首场发布会,意味着小米汽车已经经过了充分的准备和研发阶段,即将进入市场。据透露,此次发布会将主要围绕小米汽车的品牌、技术平台、销售服务体系等进行介绍,预计发布会时间为3个小时。0000