GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
要点:
最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。
MMMU包含六个学科的30个科目,涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域,共有1.15万个多模态问题,考察了感知、知识和推理等基本技能,为评估专家级AGI提供了全面而复杂的任务。
MMMU在问题设计上注重深度,包含专业领域知识和高级推理,通过涵盖多种图像格式和混合文本图像输入,要求AI模型在理解、记忆、推理等方面具备高级能力,挑战了当前多模态基准的局限性。
近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目,共有1.15万个问题,考察了感知、知识和推理等基本技能。

论文地址:https://arxiv.org/abs/2311.16502
项目网站:https://mmmu-benchmark.github.io/
数据集:https://huggingface.co/datasets/MMMU/MMMU
代码:https://github.com/MMMU-Benchmark/MMMU
MMMUs的问题涵盖了大学考试、测验和教科书,由50位来自不同学科的大学生收集,涉及了多种图像格式,从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识,还注重专业领域知识和高级推理。此外,MMMUs具有文本和图像混合的输入,要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。
在实验评估中,MMMUs展现出极大的难度,即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案,表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估,研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。
总体而言,MMMUs作为一项全面、具有挑战性的多模态AI测试基准,为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展,引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。
微软重塑其人工智能愿景:Bing Chat 更名为 Copilot 以更好地与 ChatGPT 竞争
继今年早些时候将ChatGPT类界面直接整合入其搜索引擎后,微软现在已将BingChat品牌更名为Copilot,此举是对其AI聊天界面的重大更新,这一界面曾在Bing、MicrosoftEdge和Windows11中使用。站长网2023-11-16 09:39:350000周鸿祎回应被称为顶流:称被叫车圈顶流是捧杀
北京车展已正式揭幕,吸引了众多汽车业界的目光。其中,哪吒汽车的核心投资人周鸿祎在车展上展现出了非凡的风采,成为了众人关注的焦点。他不仅在各个展台间穿梭拜访,更是别出心裁地爬上了车展车辆的车顶,仿佛化身为车模,引发了现场观众和网友的热烈讨论。其人气之高,甚至可与小米的雷军相提并论。站长网2024-04-26 10:55:090000王者荣耀抖音直播解禁,双方握手言和
腾讯旗下的王者荣耀宣布,将于1月21日起全面开放抖音直播。这意味着,双方在长达5年的侵权纠纷后,终于握手言和。王者荣耀是腾讯旗下最赚钱的手游之一,拥有超过10亿的注册用户。而抖音是国内最受欢迎的短视频平台,拥有超过60亿的活跃用户。双方的合作,将为双方带来巨大的流量和商业机会。0000微软Edge浏览器被曝存在隐私问题 将用户网站访问记录泄露给必应
日前,微软Edge浏览器的最新版本被曝存在隐私问题,会将用户访问的站点的完整URL发送到发送到其BingAPI网站。Reddit用户上周首词发现了Edge的这个隐私问题,他们注意到最新版本的MicrosoftEdge向bingapis.com发送了一个请求,其中包含用户导航到的几乎每个页面的完整URL。站长网2023-04-26 12:17:250003店小秘ERP支持ChatGPT一键发布 自动生成产品标题/描述
店小秘官方宣布,店小秘ERP支持ChatGPT一键发布,加倍提升产品刊登效率。官方表示,传统的产品刊登方式存在路径长,人工处理信息多,翻译不准确,操作重复冗余等问题,卖家往往需要耗费大量的时间和人力来完成产品刊登。传统的刊登方式已无法满足卖家更高效运营的需求。因此,店小秘ERP对产品刊登进行优化,支持ChatGPT一键发布,加倍提升效率。站长网2023-05-17 16:18:200001