GPT-4o再暴露「弱智」缺陷,大模型无一幸免,港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题
多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。
然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini1.5Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小!
下面是一个例子:
音频1,新智元,3秒
音频2,新智元,3秒
结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!对于人类来说,这种问题简直是「傻瓜级」任务,然而这些大模型却纷纷失手,暴露出其在基本听觉能力上的严重缺陷。
这一发现激发了研究团队的思考:为什么如此先进的模型在听觉辨识方面如此薄弱?为了填补这一空白,研究团队首度提出了一个全新的测试工具——DeafTest,它专门用来测试多模态大模型的基础听觉能力。
不仅如此,研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来AI模型在听觉、视觉的理解整合能力上迈向新高度。
论文链接:https://arxiv.org/pdf/2412.02611
项目地址:https://av-odyssey.github.io/
代码地址:https://github.com/AV-Odyssey/AV-Odyssey
DeafTest:多模态大模型的「听力盲点」
为了测试多模态大模型最基础的听觉能力,研究团队首先提出DeafTest,该测试包括四项基础任务:数音频中的声音次数、比较两个音频的响度、比较两个音频的音高、比较两个音频的时长。
这些任务都被设计为对人类来说极其简单的判断题,差异明显,例如:
在响度比较任务中,一个音频的响度在70-100分贝之间,而另一个音频则在30-60分贝之间。
然而,测试结果却令人震惊——这些顶尖的AI模型在大多数任务中的表现,几乎与随机猜测无异,准确率和随机选择的50%差不多,无疑暴露了多模态大模型在音频感知上的巨大短板。
AV-Odyssey Bench:全面评估多模态大模型的视听能力
为了更全面地评估AI在视听能力上的表现,研究团队还推出了一个全新的评估基准——AV-Odyssey。
AV-Odyssey包含26个任务,覆盖了7种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知,并且跨越了10个不同领域,确保测试的深度和广度。
为了确保评估的稳健性和公正性,所有任务均采用四选一的多项选择题形式,每个问题都融合了视觉、听觉等多模态信息,全面考察模型的综合处理能力。
此外,为了避免因输入顺序或格式导致的偏差,所有输入(包括文本、图片/视频和音频片段)都会以交错的方式输入到多模态大模型中。问题的形式如下图所示:
AV-Odyssey中包含了由人类专家全新标注的4555个问题,确保题目没有在其他任何数据集中出现过,任务分布以及统计信息如下面图表所示:
同时,为了进一步控制质量,研究团队利用5个视觉语言模型和4个音频大语言模型,过滤出包含冗余图像或音频片段的问题。
在这个过程中,2.54%的问题同时被所有视觉语言模型或所有音频大语言模型解决,研究团队去除了这些问题。
AV-Odyssey 实验结果
从实验结果中,可以发现:
AV-Odyssey的挑战性:
大多数现有的多模态大语言模型平均表现仅略高于25%,这与四选一问题的随机猜测准确率相当。值得注意的是,即使是AV-Odyssey中的表现最佳的模型——GPT-4o,也仅取得了34.5%的准确率。
这一结果凸显了AV-Odyssey所带来的高挑战性,远远超出了当前模型训练数据的分布范围。
通过设定严格的标准,AV-Odyssey基准测试为评估多模态大模型在音频视觉任务中的能力提供了一个重要工具,突显了现有模型的局限性,并为未来的改进指明了方向。
开源多模态大模型训练的局限性:
同时,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通过引入Audiocaps等音频-文本匹配数据集,尝试增强音频理解能力,并结合图像-文本配对数据训练视觉理解,这些模型在AV-Odyssey的测试中仍然表现不佳。
这表明,目前的训练流程并不足以真正弥合音频与视觉模态之间的鸿沟,也未能有效地学习音视频信息的整合与深度理解。
AV-Odyssey 错误分析:音频感知仍是瓶颈
研究团队对Gemini1.5Pro在AV-Odyssey中的错误进行深入分析,对每个任务随机抽取了4个错误案例进行人工标注,最终得到104个错误案例,并对其进行统计。错误的分布如下图所示:
这一分析结果揭示了一个重要趋势:63%的错误都集中在音频理解上!
例如,在某些任务中,虽然模型正确理解了视觉信息,但是音频片段的内容识别错误,导致了错误答案的生成。一个例子如下图所示:
这一发现再次印证了DeafTest的初步结论:当前多模态大模型在基础的听力能力上存在明显短板,音频感知依然是多模态任务中的最大瓶颈。
参考资料:
https://av-odyssey.github.io/
辛巴徒弟成功上位,粉丝破亿女主播诞生
辛巴徒弟蛋蛋粉丝破亿快手带货一姐的粉丝数终于破亿了!从9月15日起,辛巴的大徒弟蛋蛋便通过一系列预热视频向粉丝宣告,她将于9月21日的直播中迎来粉丝破亿的辉煌时刻。然而,令人意想不到的是,这份荣耀提前降临了。蛋蛋在自己小号表示,“准确的破亿时间是9月19日8点23分!没开播破亿了!着整?”言语间透露出既惊喜又略带迷茫的情绪。站长网2024-09-23 21:36:430000阿里云通义千问APP推出春节新应用 一张照片可生成拜年视频
随着春节的临近,阿里云通义千问APP推出了一系列全新的免费应用,旨在让用户在这个喜庆的时刻拥有更多的创意玩法。其中包括全家福、拜新年、万物成龙等多种图像生成的新体验,提供了超过300套照片模板,让用户可以轻松地通过上传照片来生成全家福、团圆照、拜年照和千里江山主题照。站长网2024-02-05 15:18:430001B站将在双11期间推出“双11”板块
据澎湃新闻报道,B站与阿里、京东、拼多多等电商平台达成了深度合作,将在双11期间推出“双11”板块,增加商品展示并支持跳转到天猫页面购买。B站手机APP底部的原会员购入口将暂时更名为“双11”。阿里方面,B站将联合天猫展开双11整合营销合作,并依托“星火计划”和“U选计划”对品牌和商家进行平台级流量补贴;京东方面,B站将上线数据生态共建项目“京红计划”,提升品牌与商家在B站的获客与转化效率;站长网2023-10-19 14:59:310000360智脑大模型2.0将于6月13日14点发布
360官方宣布,360智脑大模型2.0将于6月13日14点正式发布,具备技术优势、搜索增强优势、场景优势、大模型安全优势、数据优势、工程化优势、内容安全优势、算力优势等人工智能研发领域八大优势。据悉,“360智脑”为360自研千亿参数大语言模型,在此前多项测评中已具备认知智能通用大模型能力。2023年4月,“360智脑”结合360搜索、智能硬件等优势场景的落地应用已陆续成熟,并开放内测。站长网2023-06-12 17:12:570000Kore.ai获10亿元融资,提供定制化类ChatGPT助手
1月31日,生成式AI和企业对话平台Kore.ai在官网宣布,获得1.5亿美元(约10.7亿元)融资。本次由FTVCapital领投,英伟达等跟投。Kore.ai主要提供银行、医疗、零售、营销、人力资源等多种领域的,定制化类ChatGPT助手。用户通过文本提示就能快速完成各种日常任务,并且可以与本地系统兼容实现更强大、人性化服务。站长网2024-02-01 09:03:040001