首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。
近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。
项目地址:https://mementos-bench.github.io/
测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。
在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。
Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
滴滴宣布在北京推出地铁乘车码服务
滴滴出行与亿通行、微信支付合作,在北京推出了地铁乘车码服务。市民只需打开滴滴出行微信小程序,点击首页的“公交地铁”按钮,即可开通乘车码或扫码乘车,享受最低1分钱乘地铁的优惠。此次活动规则规定,从即日起至12月31日,在北京市政补贴优惠的基础上,滴滴乘车码新用户还可免费领取3张1分钱地铁乘车券,每单最高可抵2.99元;老用户则可享8折乘地铁,每单最高可抵0.6元。站长网2023-12-14 14:55:440000ChatGPT泄露私人信息漏洞曝光,攻击方法轻松且成本极低
划重点:1.🌐研究人员成功利用简单方法让ChatGPT泄露私人信息,揭示其训练数据中可能存在大量敏感信息。2.🤖攻击方法轻松实施,令ChatGPT以惊人的频率原样输出其训练数据,引发对大规模数据提取和论文抄袭的担忧。3.💡尽管攻击已被修复,但研究人员警告称仅靠补丁无法解决潜在的安全漏洞。站长网2023-12-01 11:45:420000WAIC十大AI商业落地趋势:大模型新玩家融资难度升级,云计算洗牌战来了
大模型,无疑是2023年上半年科技领域最瞩目的关键词。产业链上个中进展亦或是包括投融资在内的行业聚焦讨论,已经从对技术本身的展望,越来越具象到行业落地当中去。借助WAIC2023(世界人工智能大会)视角,量子位智库关注到各领域企业发布的大模型,都已无疑指向行业与应用。与此同时,在投融资层、算力数据模型三大底座层面以及应用层,还梳理了十大AI商业落地趋势。(完整报告传送门见文末)站长网2023-07-26 10:36:120000华为nova11 SE发布 搭载鸿蒙Harmony OS 4售价1999元起
华为nova11SE手机今日发布,售价1999元起,今日11:08开启预售。华为nova11SE配备1亿像素主摄和骁龙680处理器。这款手机采用了星耀环镜头模组设计,拥有多种配色可选,重量仅为186g,轻薄便携。其配备的6.67英寸OLED直屏具有90Hz刷新率、100%P3广色域、10.7亿色等高端显示功能。站长网2023-10-31 11:07:500000一公司称“小气吧啦的特斯拉”“毛坯房汽车”!被判赔10万
近日,深圳市中级人民法院发布了2022年度深圳法院知识产权十大典型案例。其中,南山区人民法院审结的特斯拉(上海)有限公司与蓝电(深圳)汽车服务有限公司(下称蓝电公司)不正当竞争纠纷案入选。被告蓝电公司一是陆续发表了多篇文章,使用小气巴拉的特斯拉”毛坯房汽车”特斯拉出了名的导航不行,千万别用官方导航,绝对让你绕路绕到吐”糟糕的座椅”等内容对原告进行评价;站长网2023-05-12 20:43:150000