GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
要点:
最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。
MMMU包含六个学科的30个科目,涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域,共有1.15万个多模态问题,考察了感知、知识和推理等基本技能,为评估专家级AGI提供了全面而复杂的任务。
MMMU在问题设计上注重深度,包含专业领域知识和高级推理,通过涵盖多种图像格式和混合文本图像输入,要求AI模型在理解、记忆、推理等方面具备高级能力,挑战了当前多模态基准的局限性。
近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目,共有1.15万个问题,考察了感知、知识和推理等基本技能。
论文地址:https://arxiv.org/abs/2311.16502
项目网站:https://mmmu-benchmark.github.io/
数据集:https://huggingface.co/datasets/MMMU/MMMU
代码:https://github.com/MMMU-Benchmark/MMMU
MMMUs的问题涵盖了大学考试、测验和教科书,由50位来自不同学科的大学生收集,涉及了多种图像格式,从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识,还注重专业领域知识和高级推理。此外,MMMUs具有文本和图像混合的输入,要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。
在实验评估中,MMMUs展现出极大的难度,即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案,表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估,研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。
总体而言,MMMUs作为一项全面、具有挑战性的多模态AI测试基准,为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展,引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。
“仅退款”成标配,谁赞成,谁反对?
这两天,#仅退款动了谁的奶酪#登上了微博热搜,引发了1.3亿阅读,1.8万讨论。“仅退款”的出现,本质上是为了减少商家和用户在关乎质量和退货问题上的争执和矛盾,也是对用户权益的保障。如今已经成为电商平台应对某些特殊情况的标配。站长网2024-07-11 20:24:200000百度文心一言APP在苹果应用商店App Store上架
近日,有网友反馈称,百度文心一言在苹果的appstore上架。据悉,此前文心一言APP已在安卓端开启内测。6月26日,百度的创始人、董事长兼首席执行官李彦宏表示,文心大型模型已经更新到3.5版本,与3月份发布的3.0版本相比,训练速度提高了2倍,推理速度提高了17倍,模型效果累计提高超过50%。站长网2023-07-04 00:57:050000李彦宏大手笔布局AI短剧:百度数百万美元投资井英科技
快科技7月3日消息,CreativeFitting(井英科技)近日宣布完成由百度集团投资的数百万美元Pre-A轮融资。据了解,井英科技一家专注于AIGC视频生成模型自主研发的公司,计划利用这笔资金进一步升级其AI视频模型和工具,加强内容生态系统的构建。其AI短剧APPReel.AI,自发布以来迅速登上海外娱乐畅销榜,显示出AI短剧在全球范围内的潜力。0000Sam Altman表示不知道GPT-5发布时间 避谈Q*问题
Q*划重点:🔍GPT-5发布时间未定,但OpenAI将推出一款令人惊叹的大模型,并计划在接下来的几个月发布一系列产品,为GPT-5的正式发布铺平道路。🔍OpenAI内部传言的神秘项目Q*仍是个谜,但Altman暗示其存在,称其出现只是时间问题。🔍Sora作为文生视频模型,在理解物理世界方面有所突破,但仍需持续优化。站长网2024-03-20 11:02:370000用ChatGPT搜索电商产品!全球最大超市-沃尔玛与微软合作
1月10日,微软在官网宣布与全球最大超市沃尔玛,达成生成式AI技术合作。沃尔玛借助微软AzureOpenAI的大语言模型以及自身专有电商数据,打造一款类似ChatGPT的电商搜索功能。例如,过去你要举办一个看世界杯的派对,需要在电商平台搜索各种物品,包括薯片、汽水、糖果,甚至符合要求的电视等。搜索功能展示站长网2024-01-10 09:53:470000