登陆注册

Gemini竟看不懂漫画

  • 首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画

    要点:1.马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。2.对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。
    站长网2024-01-31 09:38:23
    0000