谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。
Gemini的推理能力,真的比GPT-4弱吗?
此前,谷歌憋出的重磅复仇神器Gemini Pro,被发现在常识推理任务中落后于OpenAI的GPT模型。
之后又有CMU发布的论文和实验,证明Gemini Pro的很多能力都略微落后于GPT-3.5Turbo。
不过最近,斯坦福和Meta的学者为Gemini洗清了这一「冤屈」。
他们发现,这种基于有限数据集(HellaSWAG)的评估,并不能完全捕捉到Gemini真正的常识推理潜力。
论文地址:https://arxiv.org/abs/2312.17661
而在新测试集中,Gemini的推理能力比之前强很多!
Gemini的真正潜力
斯坦福和Meta的研究人员表示,以前的基于有限数据集的评估,对于Gemini不够公平。
这次,研究人员设计了需要跨模态整合常识知识的任务,以对Gemini在复杂推理任务中的表现进行彻底的评估。
研究人员对12个常识推理数据集进行了全面分析,从一般任务到特定领域的任务。
在其中的4个LLM实验和2个MLLM实验中,研究者证明了Gemini具有目前相当强的常识推理能力。
研究者对于当前流行的四大模型——Llama2-70b、Gemini Pro、GPT-3.5Turbo和GPT-4Turbo进行了评估,
他们发现,总体而言,Gemini Pro的性能和GPT-3.5Pro相当,准确性上落后于GPT-4Turbo。
实验
数据集
实验中采用了12个与不同类型的常识推理相关的数据集,包括11个基于语言的数据集和一个多模态数据集。
基于语言的数据集包括三大类常识推理问题:
1.一般推理和情境推理:CommonsenseQA,侧重于一般常识知识;Cosmos QA,强调语境理解叙事;αNLI,引入演绎推理,包括推断最合理的解释;HellaSWAG,以上下文事件序列的推理为中心。
2.专业推理和知识推理:TRAM,测试关于时间的推理;NumerSense,侧重于数值理解;PIQA,评估物理相互作用知识;QASC,处理与科学相关的推理;RiddleSense,通过谜语挑战创造性思维。
3.社会和道德推理:Social IQa,测试对社会互动的理解;ETHICS,评估道德和伦理推理。
对于多模态数据集(视觉和语言),这里选择VCR,一个用于认知水平视觉理解的大规模数据集。
对于包含多个任务的TRAM和ETHICS等数据集,研究人员提取了实验的常识推理部分。
实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。
模型
采用最流行的四个大模型:开源的Llama-2-70b-chat和闭源的Gemini Pro、GPT-3.5Turbo、GPT-4Turbo。
每个模型都使用相应的API密钥进行访问:通过Google Vertex AI访问Gemini,通过OpenAI API访问GPT,通过DeepInfra访问Llama2。
对于多模态数据集,实验中考虑了GPT-4V(API中的gpt-4-vision-preview)和 Gemini Pro Vision(API中的gemini-pro-vision)。
考虑到API成本和速率的限制,研究人员从每个基于语言的数据集的验证集中随机选择了200个示例,从VCR数据集的验证集中随机选择了50个示例。
对于所有评估,在模型响应生成期间采用贪婪解码(即温度=0)。
提示
在评估基于语言的数据集时,研究人员采用了两种提示设置:零样本标准提示(SP),旨在衡量模型在语言环境中的固有常识能力,以及少样本思维链(CoT)提示,用于观察模型性能的潜在增强。
对于多模态数据集,利用零样本标准提示,来评估MLLM的端到端视觉常识推理能力。
结果
整体的性能比较结果如下表所示:
从模型的角度来看,GPT-4Turbo的平均表现最好。在零样本学习中,它比第二名的Gemini Pro高出7.3%,在少样本学习中优势更大(9.0%)。
而Gemini Pro的平均准确率略高于 GPT-3.5Turbo(0-shot,SP下高1.3%,k-shot,CoT下高1.5%)。
关于提示方法,CoT提高了所有数据集的性能,在 CommonsenseQA、TRAM和Social IQa等数据集中有明显的收益。
下表是在多模态VCR数据集上的性能比较:
VCR的三个子任务分别为:Q → A,根据视觉上下文生成问题的答案;QA→R,要求模型为给定的答案提供基本原理;Q → AR,既要回答问题,又要用适当的理由来证明回答的合理性。
将11个基于语言的数据集分为三组,在图1中展示了每组中每种设置的性能。
研究结果表明,GPT-4Turbo在所有类别的性能方面始终领先。
Gemini Pro和GPT-3.5Turbo的性能相当;不过,Gemini Pro在三个类别中的两个类别中,略胜于GPT-3.5Turbo。
总体而言,所有模型在处理社会和道德推理数据集方面,都表现出强大的能力。
然而,它们在一般推理和语境推理任务上的表现,存在显著差异。
这也表明,它们对更广泛的常识原则,及其在不同背景下的应用理解,存在潜在差距。
而在专业和知识推理类别,特别是在时间和基于谜语的挑战领域,模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上,都表现出了缺陷。
关于多模态数据集,图2详细介绍了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。
我们可以看到,在最后一个关于时间类别的问题上,GeminiPro Vision实现了反超。
MLLM的推理正当性
为了评估MLLM的推理能力,尤其是不仅提供正确答案,还能就常识问题提供合理且基于上下文推理的能力,研究者采用了系统抽样方法。
对于评估四个LLM的11个基于语言的数据集,研究者随机选择了30个回答正确的问题,和30个回答错误的问题。
如果数据集提供的错误答案少于30个,研究者就会包含进所有可用的错误答案,以确保分析的全面性。
选择这些问题后,他们会让每个模型解释:「问题答案背后的基本原理是什么?」 然后手动检查模型提供的推理过程,并根据其逻辑合理性和与问题的相关性被判为True或False。
图3显示,GPT-4Turbo在正确和错误的答案上,都显示出先进的推理机制,即使最终答案不准确,它也有保持逻辑连贯的能力。
另外,Gemini Pro也表现出了值得称赞的推理能力,提供了全面的常识推理方法。
下图展示了Gemini Pro和GPT-3.5的两个真实示例,展现了正确答案和正确理由,以及错误答案和错误理由的情况。
示例问题来自QASC数据集,红色粗体为正确答案。在上图中,Gemini Pro表现出有条不紊的推理,仔细考虑所有选项以得出最合乎逻辑的结论。
相反,由于GPT-3.5Turbo对非常规逻辑的倾向,导致了富有想象力但不正确的答案。
这表明不同模型应对常识推理任务的不同策略,有自己的独特能力和局限性。
Gemini Pro的常识推理能力
一般常识(CommonsenseQA)
在使用CommonsenseQA数据集的一般常识评估中,有这样一道示例问题:「当你是陌生人时,人们会怎样?」
A.火车 B.奇怪 C.人类 D.愚蠢 E.危险
Gemini Pro选择了B。
它的推理过程也值得注意:它认识到,虽然所有选项都和「陌生人」的概念相关,但只有「奇怪」准确概括了问题的中立和开放性本质。
这个选择,凸显出了Gemini Pro解释和应用一般常识知识的能力。
时间(TRAM)
TRAM数据集的时间常识评估中的示例问题:「他还承诺会来找他。」
他需要多长时间才能「来到他身边」?
A.100年 B.一分钟内 C.几个小时
由于缺乏足够的背景信息,特别是关于所涉及的身份和「来到」的含义,Gemini Pro无法提供明确的答案。
这说明了,模型需要依赖特定的上下文信息,来做出准确的时间判断。
在现实世界的信息传播中,模糊或不完整的信息,也会造成这种局限性。
社交(Social IQa)
在使用Social IQa数据集评估GeminiPro在社会常识推理方面的表现时,出现了一个有趣的场景: 人们一直欺负在Sasha,Sasha报复了回去,接下来人们会做什么?
A.按Sasha说的去做 B.报仇 C.逃离Sasha
正确答案是C,但Gemini Pro的选择却显得很有洞察力。
它选择了B,理由是Sasha的行动很可能点燃了人们复仇的欲望。
这一回应表明,Gemini Pro对于社会动态和情感动机有了细致入微的理解。
Visual(VCR)
在VCR数据集中,研究者分析了Gemini Pro Vision对涉及人身安全和潜在危险场景的响应。
如果此时4号推了3号,会发生什么?
Gemini Pro Vision回答:3号会掉下悬崖,危及生命。
这个结果表明,Gemini Pro Vision已经能够做出视觉常识推理,分析视觉场景并预测这些场景中动作的潜在后果。
这表明模型已经掌握了空间关系和物理后果,具备了类似人类认知的复杂视觉信息能力。
接棒章小蕙,垂类买手扛起小红书电商大旗
5月26日,章小蕙开启了自己在淘宝的首场直播,整场直播观看人数超过千万。时间倒回一年前,章小蕙在小红书开启带货首秀,首场直播销售额突破5000万。5个月后,在小红书宣告“买手时代已来”定位后的首个双11前夕,章小蕙的第二场直播销售额突破亿元,成为小红书上第一个单场破亿的主播,而她也就此和董洁一起,成为小红书买手的标杆案例。就在前几日,章小蕙在小红书的618直播销售额再次破亿。站长网2024-06-03 10:30:180000Metaverse踏出VR 元宇宙平台Horizon Worlds网页版已上线
据国外媒体报道,Meta旗下元宇宙平台HorizonWorlds终于正式离开只能通过VR头显体验的封闭状态,网页版本和移动App版本已经面向部分用户开放早期公测。这标志着HorizonWorlds有望服务更广大的非VR设备用户,而不仅限于昂贵的QuestVR头显设备用户。站长网2023-09-15 10:59:560001游戏玩家公会任命 ChatGPT 为新领导人:所有重大决策都将受到人工智能输出的影响
在EveOnline这款大型多人在线太空模拟游戏中,NeuralNexus,一个类似于《魔兽世界》公会的玩家组织,正尝试使用人工智能技术来管理公会事务,这是一次前所未有的尝试。NeuralNexus的目标是减少对单一人类领导者的依赖和解决团队方向上的冲突或分歧问题。他们利用基于GPT-4的聊天机器人来做出决策,旨在通过技术提升公会的持久性。0000AI前哨|未来你也能影响ChatGPT决策?OpenAI透露重要信息
凤凰网科技讯《AI前哨》北京时间5月23日消息,ChatGPT开发商OpenAI总裁格雷格布罗克曼(GregBrockman)周一表示,该公司正在测试如何在影响其人工智能(AI)的决策中收集广泛意见。周一,高盛集团和天使投资公司SVAngel在旧金山举办了“AI前进”(AIForward)活动。布罗克曼在活动上讨论了OpenAI如何在全球范围内寻求对AI的监管。站长网2023-05-23 09:34:290000日赚过万,火上热搜,短剧演员能成为顶流明星吗?
最近,因为在综艺节目《无限超越班2》中的表现,短剧演员锦超的关注度飙升,多次登上各平台热搜,也让短剧演员这个群体进一步走进大众视野。从担任长剧男主的丞磊,到拍摄品牌短剧的姜十七,短剧演员们不仅拥有了自己的出圈作品和粉丝,也受到品牌广告主真金白银的认可。目前业内有哪些比较热门的短剧演员?他们的代表作有哪些?短剧演员的职业现状如何?他们中能走出顶流明星吗?站长网2024-04-24 19:48:220002