GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%
要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench,揭示了其高达90%的错误率,包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉,强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答,关注视觉错觉和知识幻觉,揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足,以及处理多个图像之间的时间关系和常识查询问题。
近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。
研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。
HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。
这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。
极氪汽车在纽交所上市 创下新能源车企最快上市纪录
站长之家(ChinaZ.com)5月11日消息:极氪汽车昨晚正式在纽约证券交易所挂牌交易,股票代码为“ZK”,这标志着它成为继蔚来、理想和小鹏之后,第四家踏入美国资本市场的中国新能源汽车制造商。值得一提的是,从品牌发布到实现首次公开募股(IPO),极氪仅用了37个月,创下了新能源车企的最快上市纪录。站长网2024-05-11 11:35:230000科大讯飞公布星火认知大模型使用报告:男性用户占比约达82%
科大讯飞公布了讯飞星火认知大模型上线100多天的数据。数据显示,男性用户在该模型中的使用比例明显高于女性用户,男女比例为82%比18%。从年龄分布上看,中青年用户是星火大模型的主要使用者。用户分布方面,一线城市新一线城市的用户占比超过52%,其中广东占比最高,达到16%,北京和安徽分别占比8%和7%。站长网2023-08-21 22:16:490001LexisNexis 推出全面可用的 Lexis+ AI:承诺为法律问题提供「无幻觉」的答案
站长之家(ChinaZ.com)10月26日消息:去年五月,LexisNexis首次透露了推出LexisAI的计划,这是一个新产品,将利用大型语言模型来回答法律研究问题、总结法律问题,并生成法律文档草稿。当时,它限制了对一些同意参与商业预览的AmLaw50强律师事务所的可用性。站长网2023-10-26 10:45:160000马斯克:xAI不会与特斯拉竞争 将专注于人工通用智能
在特斯拉财报电话会议上,谈及自己的初创公司xAI,马斯克表示,xAI是一家专注于人工智能的初创公司,不会与特斯拉竞争,反而可能“提升特斯拉的价值”。这些工程师和科学家对加入特斯拉不感兴趣,这家人工智能初创公司最初将专注于人工通用智能(AGI)。站长网2023-07-20 11:07:540000《纽约时报》禁止人工智能公司使用其内容进行模型算法训练
据Adweek报道,纽约时报在8月初更新了其服务条款,禁止将其文章和图片用于人工智能训练。此举发生在科技公司继续通过像ChatGPT和GoogleBard这样的AI语言应用获取数据的大规模未经授权抓取的情况下。站长网2023-08-15 08:49:010000