首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。
近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。
项目地址:https://mementos-bench.github.io/
测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。
在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。
Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
创维汽车发布大模型智能问答系统“小维GPT”
7月19日,创维汽车正式发布了大模型智能问答系统小维GPT。小维GPT基于AI大数据模型,拥有推理能力、自我学习能力、优化能力以及自我调整和填补能力,能够提供更加精准和个性化的服务,应用场景将涵盖工作、学习、生活、娱乐、车主私人助理等方方面面。站长网2023-07-20 11:07:550000抖音网友发起趣味挑战 AI眼中一万年前的麦当劳长啥样?
12月15日,一位名为“Lucas的AI探索屋”的网友发起了一个有趣的挑战,探讨如果麦当劳在1020年甚至一万年前存在会是什么样子。在视频中,他使用ChatGPT来“画一个麦当劳”,并逐渐修改年份,展示了不同年代的麦当劳店铺的形象。令人惊讶的是,百万年前的麦当劳店名与“Monkey”(猴子)的拼写相似,这些微小的细节引起了一些网友的关注。站长网2023-12-19 16:25:1400002024,智能手表能告别“美丽废物”吗?
在社交媒体上搜索“美丽废物”,智能手表一直位居前列。它们售价昂贵,除了表面的“美丽”,没有什么实用价值,但情绪价值拉满,是当代年轻人取悦自己的“数码甜品”。乍一看,“美丽废物”似乎是一个贬义词。但仔细想想,“美丽废物”简直是对一款终端产品的最高褒奖。0000商汤把AI塞进一盏台灯 推智能台灯元萝卜SenseRobot
商汤科技发布了一款名为“元萝卜SenseRobot”的台灯产品,外观设计灵感来源于宇航和科幻元素。台灯通过超宽双翼设计实现弧形反射和广角扩光,让灯光均匀照亮整个书桌。该产品还引入了光随书动技术,利用摄像头的追踪技术让光源自动聚焦在书本上。此外,台灯还具备AI离座感应和自动延时关灯功能,方便节能和使用。站长网2024-01-04 15:32:380001Yseop推出面向科学家的生成式 AI 助手Yseop Copilot
近日,生成式AI软件公司Yseop宣布推出YseopCopilot,这是一款专为受监管行业量身定制的内容自动化工具。据该公司称,这一下一代产品旨在帮助生命科学公司简化其自动化要求。多模式平台使用预训练的大型语言模型(LLM)来增强科学作家的能力,并在安全和封闭的环境中增强他们的战略能力和生产力。站长网2023-06-08 07:06:190000