研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT
**划重点:**
1. 📉 卡内基梅隆大学研究指出,Gemini Pro在基准测试中不如GPT-3.5,远远落后于GPT-4。
2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾,强调了中立基准测试机构或流程的必要性。
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳,对自身基准的依赖不足以可靠衡量语言模型性能。
根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平,不仅落后于GPT-3.5,还远远不及GPT-4。
Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4,但谷歌已经对Ultra的基准结果进行了操纵。
尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5,但卡内基梅隆大学的研究显示,在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。
研究还发现,Gemini Pro在基本数学推理方面表现不佳,这是形式逻辑和初等数学任务所需的能力。在主题类别方面,Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5,而在其他所有类别中都落后。
一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而,研究人员还发现,Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。
Gemini Pro模型的准确性与GPT3.5Turbo相当,但略逊一筹,并且远不如GPT-4。然而,在某些长而复杂的推理任务中,Gemini表现优于GPT3.5Turbo,并在无过滤响应的多语境任务中表现出色。
这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试,最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果,GPT-4Turbo目前在聊天机器人领域评分最高,显示基准测试的价值有限。
这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时,它也表明,尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业而言并非好消息。
这届年轻人,在彩票站“回血”
买了2年多彩票的花灵发现,现在买彩票都要排队了。今年入职了新公司的她成功将同事都发展成了彩票搭子,午休时间,大家约着一起去买咖啡,路上会途经一家彩票店,再花二三十元买几张刮刮乐。而从4月开始,他们常去的彩票站开始挤满年轻人,“晚去的话都靠近不了柜台”。站长网2023-06-08 16:58:570000曝QQ音乐电视端单独收费为灰度测试:未来逐步普及
快科技1月17日消息,日前,有网友反馈称,QQ音乐电视端发布通知,QQ音乐电视端会员功能已从豪华绿钻升级至电视端独立会员。这意味着QQ音乐电视端会员将实行单独付费。据国内媒体报道,有知情人士称,目前QQ音乐电视端会员仍处于小规模灰度测试阶段,未来会逐渐普及。目前暂不清楚QQ音乐电视端单独付费到底是什么原因,有网友认为电视会员单独收费是因为没有牌照。站长网2024-01-17 20:07:380000从BBS到LOFTER:中文同人圈的奇幻二十年
影视剧的配角“上桌”潮,似乎从2023年一直延续到了现在。《长月烬明》里的陈都灵,《我的人间烟火》里的魏大勋,《花间令》中的郑合惠子……内娱大舞台摆好桌子,主角配角们来来去去,观众们的注意力也随之聚散,粉丝将之视为心头大患,番位斗争开始隐秘进行。站长网2024-06-27 14:34:520000苹果iPhone 15/Plus发售日破发 仅Pro Max溢价
今天,iPhone15系列手机正式发布,但令人惊讶的是,仅仅在发布后的两个小时内,就已经出现了降价的情况。现在,iPhone15和Plus的库存相当充足,价格也全面低于官方网站的价格。即使是升级较大的iPhone15Pro,也仅略微高于官方价格,可以从经销商手中现货购买。目前只有iPhone15ProMax机型仍然保持着溢价,部分颜色的钛合金版本甚至需要加价700元以上才能购买。站长网2023-09-22 11:34:020002AI数据公司「整数智能」获数千万Pre A轮融资
据36氪消息,近期,AI数据公司「整数智能」完成了数千万元的PreA轮融资,这轮融资由翊宙资本、藕舫天使、安益盛银和图灵启真投资而来,翊尚资本为本轮融资的独家顾问。据悉,这轮融资的主要资金将用于智能数据工程平台的迭代升级,全新的ABAVA平台将集成AI大模型和小模型,实现高效自动化数据标注。此外,整数智能还将添加RLHF(人类反馈强化学习)数据服务能力,为大语言模型的研究和迭代提供方案。站长网2023-06-05 19:58:250000