首页站长资讯研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

站长网2023-12-22 13:06:501阅

**划重点:**

1. 📉 卡内基梅隆大学研究指出，Gemini Pro在基准测试中不如GPT-3.5，远远落后于GPT-4。

2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾，强调了中立基准测试机构或流程的必要性。

3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳，对自身基准的依赖不足以可靠衡量语言模型性能。

根据卡内基梅隆大学的最新研究报告，谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平，不仅落后于GPT-3.5，还远远不及GPT-4。

Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾，凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4，但谷歌已经对Ultra的基准结果进行了操纵。

尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5，但卡内基梅隆大学的研究显示，在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。

研究还发现，Gemini Pro在基本数学推理方面表现不佳，这是形式逻辑和初等数学任务所需的能力。在主题类别方面，Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5，而在其他所有类别中都落后。

一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而，研究人员还发现，Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。

Gemini Pro模型的准确性与GPT3.5Turbo相当，但略逊一筹，并且远不如GPT-4。然而，在某些长而复杂的推理任务中，Gemini表现优于GPT3.5Turbo，并在无过滤响应的多语境任务中表现出色。

这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试，最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果，GPT-4Turbo目前在聊天机器人领域评分最高，显示基准测试的价值有限。

这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时，它也表明，尽管谷歌竭尽全力，但其在追赶OpenAI方面仍然表现不佳，对整个AI行业而言并非好消息。

研究揭示谷歌GeminiPro在基准测试中落后于免费ChatGPT

0001

评论列表

共(0)条

相关推荐

站长资讯
去年315晚会曝光企业现状：有主播解封继续带货，有的被罚200万
一年一度的315晚会马上就要来到，去年曝光的问题和企业你还有印象?2023年315曝光了泰国香米、“打脸”化妆品、直播剧本、免费评书机、网络水军、景点安全带问题、翻新货、劣质水泥等一系列消费问题。当时晚会播出后，相关监管部门迅速行动，不少相关企业也作出回应。而时隔一年，去年这些被曝光的企业现在又如何?我们一起来看看。剧本直播:有主播账号已解封涨粉近百万
站长网2024-03-13 18:11:25
0000
站长资讯
阿里巴巴CEO吴泳铭：AI技术将为社会带来深远变革
在2023年世界互联网大会乌镇峰会上，阿里巴巴集团首席执行官吴泳铭强调，AI技术将为社会带来深远变革，超越信息革命的范畴，涉及整个知识迭代和社会协同方式的改变。他指出，人类历史上的科技发展加速始于语言文字和印刷术的发明，类比于计算机语言和硬盘存储，AI技术让机器理解人类语言和逻辑，携带巨大算力，帮助人类理解知识，推动协同流式驱动的发展，其加速度将远超想象。
站长网2023-11-09 10:36:51
0000
站长资讯
AI写真取代海马体？还真有可能，但赚钱就别想了
比起传统照相馆，海马体靠两点俘获了年轻用户，首先是节省了用户从预约到取片的时间、第二是通过改变“付费包”减轻了用户决定出门拍照的心理负担。也许仔细一算，海马体单张成片的价格要比传统照相馆还高，但由于成片数量减少，海马体给年轻人提供了一个负担得起的价格，又符合他们同时追求优质服务、体验的诉求。
站长网2024-02-27 09:18:12
0000
站长资讯
冯提莫“二次跳槽”：签约抖音游戏公会，重心还在直播吗？
与B站合约到期、停播7个月后，冯提莫要回归了。7月6日，抖音游戏公会“微应互动”发布了与冯提莫签约的消息。随后，冯提莫工作室也官宣了该消息。签约抖音公会，冯提莫这是要来抖音开播了?对此，新播场咨询了微应互动相关人士，对方称冯提莫后续动向以她的团队发声为准，并表示快了。冯提莫直播至今已经接近10年，在斗鱼、B站都曾是“一姐”的存在。
站长网2023-07-14 20:07:51
0003
站长资讯
作家联合控告 Meta、微软和彭博的 Llama 2、BloombergGPT 模型侵犯版权
站长之家(ChinaZ.com)10月20日消息:包括前阿肯色州州长MikeHuckabee和畅销的基督教作家LysaTerKeurst在内的一组作家已在纽约联邦法院提起诉讼，指控Meta、微软和彭博在未经许可的情况下使用他们的作品来训练人工智能系统。
站长网2023-10-20 14:17:52
0000