首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。
近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。

项目地址:https://mementos-bench.github.io/
测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。
在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。
Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
OpenAI 首席执行官 Sam Altman 解释他为何在人工智能之外大力投资能源
Oklo公司是一家先进的裂变微型反应堆创业公司,周二宣布通过与特殊目的收购公司AltCAcquisitionCorp.进行合并以进行上市交易。AltC由OpenAI首席执行官SamAltman和ChurchillCapital共同创立,Altman也是Oklo董事会主席。站长网2023-07-12 17:26:030000小米年度机皇蓄势待发:曝小米15 Ultra电池容量达6000mAh
快科技12月16日消息,博主数码闲聊站爆料,小米15Ultra已经定版,电池容量达到了6000mAh,这是小米史上电池最大的Ultra机型,并支持90W有线充和50W无线充。目前小米15Ultra已经获得入网许可,提供两种卫星通信方案,标准版支持天通卫星通话,顶配版支持天通卫星通话北斗卫星短信。0000俞敏洪道歉,东方甄选离不开董宇辉?
粉丝还在掉。5天时间,东方甄选直播间已掉粉32万(12月9日粉丝3116万,截至发稿为3080万)。3个工作日,东方甄选的市值一度蒸发65亿港元。“小作文”事件还在持续发酵,东方甄选头牌主播董宇辉本人不仅缺席了既定好的12月10日的直播,且目前其IP地址显示在陕西。东方甄选最新对外回应称,董宇辉本人最近不直播。0001天猫精灵接入阿里通义千问:对话可随时打断、可合成歌单
今天,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。目前,钉钉、天猫精灵等产品已接入通义千问测试,将在评估认证后正式发布新功能。据介绍,接入通义千问后,新天猫精灵变得更拟人更聪明,知识、情感、个性、记忆能力大幅跃升:它支持自由对话,可以随时打断、切换话题,能根据用户需求和场景随时生成内容。站长网2023-04-12 13:04:150001卢伟冰:Redmi暂时不会出折叠屏手机
快科技8月3日消息,小米最近推出的两款折叠屏手机不仅将大折叠屏手机提升到了行业领先水平,同时也填补了小米在小折叠屏领域的空白。具体来说,小米MIX{tag_keyurl_4}4的折叠厚度仅为9.47mm,展开后更是薄至4.59mm,重量仅为226g,雷军甚至盛赞其手感堪比传统直屏旗舰手机,令人难以置信。站长网2024-08-03 18:15:470000