研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT
**划重点:**
1. 📉 卡内基梅隆大学研究指出,Gemini Pro在基准测试中不如GPT-3.5,远远落后于GPT-4。
2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾,强调了中立基准测试机构或流程的必要性。
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳,对自身基准的依赖不足以可靠衡量语言模型性能。
根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平,不仅落后于GPT-3.5,还远远不及GPT-4。
Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4,但谷歌已经对Ultra的基准结果进行了操纵。
尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5,但卡内基梅隆大学的研究显示,在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。
研究还发现,Gemini Pro在基本数学推理方面表现不佳,这是形式逻辑和初等数学任务所需的能力。在主题类别方面,Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5,而在其他所有类别中都落后。
一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而,研究人员还发现,Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。
Gemini Pro模型的准确性与GPT3.5Turbo相当,但略逊一筹,并且远不如GPT-4。然而,在某些长而复杂的推理任务中,Gemini表现优于GPT3.5Turbo,并在无过滤响应的多语境任务中表现出色。
这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试,最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果,GPT-4Turbo目前在聊天机器人领域评分最高,显示基准测试的价值有限。
这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时,它也表明,尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业而言并非好消息。
Salesforce 再次加码:未来五年计划 40 亿美元投资英国业务 推动 AI 数字转型
站长之家(ChinaZ.com)6月30日消息:美国软件公司Salesforce在周四宣布,将在未来五年内向其英国业务投资40亿美元。这一计划是在2018年之前宣布的25亿美元投资计划的基础上进一步加码。这项新投资将为英国科技行业注入动力,此前数周微软总裁BradSmith批评英国政府阻止其收购动视暴雪的决定,称这一决定「动摇了对英国的信心」。站长网2023-06-30 19:36:090001WPS就崩溃致歉:全体用户可免费领取15天会员
近日,有用户反馈金山文档出现了无法使用的状况,导致WPS共享文档无法打开。对此,WPS官方迅速作出回应,表示经工程师紧急修复,WPS服务已经恢复正常。为了补偿用户在服务中断期间可能遭受的不便,WPS官方宣布,用户可以在明天(8月22日0点至24点)期间免费领取15天的WPS会员服务。用户只需在WPS中搜索关键词“AI办公”,即可完成领取。站长网2024-08-21 16:52:280000谷歌大脑联合创始人称,他测试让ChatGPT毁灭人类以失败告终
**划重点:**1.🧪谷歌大脑联合创始人AndrewNg进行实验,试图让GPT-4执行致命任务。2.🚫实验结果表明,ChatGPT未被成功操控,Ng表示未能触发灾难场景。3.🌐Ng强调目前AI系统相对安全,对于未来AI可能危险的担忧不切实际。0001“上天”指日可待!小鹏汇天陆地航母即将进入适航审定阶段
快科技3月25日消息,据媒体报道,小鹏汇天陆地航母”飞行体的型号合格证(TC)申请已被中国民用航空中南地区管理局受理,预示着该型号即将进入适航审定阶段。型号合格证是对民用航空产品型号设计的批准,由中国民用航空局(CAAC)根据《民用航空产品和零部件合格审定规定》(CCAR-21)颁发给民用航空产品设计单位。它证明了研制的民用航空产品符合适航规章和环境保护要求。站长网2024-03-25 12:03:390000又多了一个获取流量的新渠道!
各位村民好,我是村长。很多人一直都没有搞明白,赚钱的基本逻辑是什么,当然这也是我一直在摸索的。许多人今天做淘宝无货源,明天搞抖音直播、后天做私域团购,一直疲于在各种项目之间来回穿梭。有的人运气好的确赚到了一些钱,而有的人折腾了几个项目都没有赚钱。但是内心却一直认为是自己没有碰到好项目,错过了所谓的风口。但事实上并非如此,因为对于那些持续赚钱的人和项目来说,从来都没有新风口。01站长网2023-09-16 10:10:330000