首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。
近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。
项目地址:https://mementos-bench.github.io/
测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。
在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。
Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
非母语者不配?中国人写的英文论文被ChatGPT检测器判为AI生成的概率高达61%
有研究发现,GPT检测器对非母语作者有偏见,容易将其写作的样本错误地判定为AI生成的,而母语写作样本则基本能被准确地识别。简单地来说,就是如果是一个外国人原创写一篇文章,检测器基本可以准确判定出这是人写的。但中国人写的英语论文很容易被AI误认为是“同行”写的。站长网2023-05-05 11:46:340000火锅品牌的尽头,是拍一组时尚芭莎大片?
万物皆可火锅。但没想到,火锅和时尚圈也能成为“搭子”。注意,不是哪家大牌出了火锅相关风格的概念高定,而是时尚芭莎在抖音生活火锅季最新发布的一组,关于火锅的时尚大片。且主人公既不是明星艺人,也不是名模网红,而是几家火锅品牌的创始人们。0000京东春晚宣布将抽送100辆汽车 可享受最高10年使用权
作为2024年总台春晚独家互动合作平台,京东携手汽车品牌“东风岚图”,为大家送上了一份特别的惊喜:100辆岚图汽车的大奖!除夕之夜,只要打开京东APP参与互动抽奖,就有机会赢取这些诱人的奖品。这批岚图汽车包括热门车型如岚图梦想家、岚图追光和岚图FREE。中奖者将获得这些车型一年的免费使用权,部分车型更可享受最高10年的使用权。站长网2024-02-01 15:01:120000快播公司破产注销 创始人出狱后创办人工智能公司
凤凰网科技讯5月30日消息,天眼查App显示,近日,深圳市快播科技有限公司发生工商变更,企业经营状态由吊销未注销变更为注销,注销原因为宣告破产。该公司成立于2007年12月,法定代表人为于璐,注册资本1000万人民币,现由张克东、于璐、刘燕三人共同持股。对外投资信息显示,该公司持有北京快播科技有限公司、深圳市快玩科技有限公司等共6家公司股份,目前,6家公司均处于注销或吊销未注销状态。站长网2023-05-30 13:54:150000资本市场再遇东方甄选,交个朋友二度借壳终上市
交个朋友终于实现曲线上市。5月10日晚,上市公司世纪睿科发布公告,宣布拟改名为「交个朋友控股有限公司」,英文名也将相应改为“BeFriendsHoldingLimited”,同时表示已完成对交个朋友公司的全资收购,世纪睿科拥有“交个朋友”的核心IP和相关的全部账号。“交个朋友直播间”官方微博通过转发的形式,对该消息予以确认。图源:世纪睿科公告站长网2023-05-18 14:06:450001