研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT
**划重点:**
1. 📉 卡内基梅隆大学研究指出,Gemini Pro在基准测试中不如GPT-3.5,远远落后于GPT-4。
2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾,强调了中立基准测试机构或流程的必要性。
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳,对自身基准的依赖不足以可靠衡量语言模型性能。
根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平,不仅落后于GPT-3.5,还远远不及GPT-4。
Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4,但谷歌已经对Ultra的基准结果进行了操纵。
尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5,但卡内基梅隆大学的研究显示,在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。
研究还发现,Gemini Pro在基本数学推理方面表现不佳,这是形式逻辑和初等数学任务所需的能力。在主题类别方面,Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5,而在其他所有类别中都落后。
一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而,研究人员还发现,Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。
Gemini Pro模型的准确性与GPT3.5Turbo相当,但略逊一筹,并且远不如GPT-4。然而,在某些长而复杂的推理任务中,Gemini表现优于GPT3.5Turbo,并在无过滤响应的多语境任务中表现出色。
这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试,最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果,GPT-4Turbo目前在聊天机器人领域评分最高,显示基准测试的价值有限。
这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时,它也表明,尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业而言并非好消息。
冰火ChatGPT:有人卖课爆量,有人死磕终身学习
AI一天,人间十年。ChatGPT在全球掀起AI热潮,各种大模型风起云涌,AIGC如火如荼……AI新时代的热浪下,无论是创业者还是投资人都蠢蠢欲动,仿佛一眨眼就会错过十亿百亿的机会。与此同时,AI代替人类的惊惶论调甚嚣尘上,翻译、编剧、设计师、客服等等首当其冲,普通打工人也无法置身事外。一时间,错失财富密码与沦为AI棋子的双重焦虑叠加,“补课”“补认知”迫在眉睫。站长网2023-05-06 14:01:510001出门问问自研大模型「序列猴子」向全社会开放
11月4日,出门问问自研大模型「序列猴子」正式向全社会开放。即日起,广大用户可登陆基于「序列猴子」的AI写作助手奇妙文(write.mobvoi.com)或AI开放平台(openapi.mobvoi.com/llm)体验。今年4月,出门问问「序列猴子」开启邀测。「序列猴子」以语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度。站长网2023-11-04 15:10:250000咖啡价格战打到3元一杯,你敢喝吗?
库迪咖啡的价格战“你们这里的咖啡最近有活动吗?”“优惠活动一直都有的,今天小程序领券8块8任饮,如果您是新用户还能1元喝。”公司楼下的库迪咖啡,在这周一又发了一波8.8元任饮券。库迪咖啡的员工说着与往日一贯的话术,上次来他们说的还是抖音领券能喝9.9元的咖啡,但与之前不同的是,他们店里的员工从4人减少到了2人,而那个刚刚问有没有活动的顾客,却被同伴拉去了库迪对面的星巴克。站长网2023-06-30 01:35:0500002024 年 8 个顶级生成式人工智能工具类别
ChatGPT等生成式人工智能服务的流行激发了人们将这些新工具应用于实际企业应用程序的兴趣。如今,几乎每个企业应用程序都通过生成式人工智能功能得到增强。0000大众50亿雪中送炭,小鹏实质收益几何?
大众对小鹏增资50亿元,引来了市场的关注和掌声。但小鹏目前最缺的不是现金流,而是持续的造血能力。作为一家主机厂商,未来小鹏与大众合作推出的车型将成为自己的竞品;作为一家解决方案提供商,小鹏还将面临诸多竞争对手。历史上很多车企之间的合作最终滑向破裂,与巨头共舞,小鹏需要更加谨慎。0000