研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT
**划重点:**
1. 📉 卡内基梅隆大学研究指出,Gemini Pro在基准测试中不如GPT-3.5,远远落后于GPT-4。
2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾,强调了中立基准测试机构或流程的必要性。
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳,对自身基准的依赖不足以可靠衡量语言模型性能。
根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平,不仅落后于GPT-3.5,还远远不及GPT-4。
Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4,但谷歌已经对Ultra的基准结果进行了操纵。
尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5,但卡内基梅隆大学的研究显示,在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。
研究还发现,Gemini Pro在基本数学推理方面表现不佳,这是形式逻辑和初等数学任务所需的能力。在主题类别方面,Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5,而在其他所有类别中都落后。
一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而,研究人员还发现,Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。
Gemini Pro模型的准确性与GPT3.5Turbo相当,但略逊一筹,并且远不如GPT-4。然而,在某些长而复杂的推理任务中,Gemini表现优于GPT3.5Turbo,并在无过滤响应的多语境任务中表现出色。
这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试,最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果,GPT-4Turbo目前在聊天机器人领域评分最高,显示基准测试的价值有限。
这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时,它也表明,尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业而言并非好消息。
个性化扩散模型微调方法DiffuseKronA:个性化扩散模型微调方法,大幅减少参数、合成高质量图像
划重点:⭐️新方法DiffuseKronA采用Kronecker乘积模块,在保持高质量生成的同时,显著减少参数数量。⭐️与现有模型相比,DiffuseKronA在生成图像质量、文本-图像对应性和参数效率方面表现出色。⭐️通过实验和对比,证明DiffuseKronA相比LoRA-DreamBooth更稳定、更具可解释性,且在参数效率和模型稳定性上表现更优。站长网2024-02-28 15:40:2400006个月入过万的搞钱副业
各位村民好,我是村长。网上互联网赚钱的项目千千万,每个博主都说自己赚到钱了。很多人既羡慕又慌张,特别幻想自己也月入几万,又怕错过赚钱的机会。所以很多时候,就交了很多钱做淘客、外卖、抖客、闲鱼、书单号、小红书等等。那么今天村长就先为大家简单盘点6个互联网搞钱项目,帮助大家了解一下,也避避坑。01淘宝客淘宝客存在的时间太久了,许多搞互联网项目的,几乎都是从做淘宝客起来的。0000东方甄选开盘大涨 董宇辉成东方甄选高级合伙人
12月18日消息,东方甄选股价高开11.62%,报29.3港元,总市值297.7亿港元。此后,东方甄选股价一度涨超16%。截止发稿,东方甄选股价上涨14.10%,报29.950港元,总市值304.00亿港元。此前,东方甄选在直播预告透露了一个重要信息,董宇辉的身份已经升级为东方甄选高级合伙人。同时,12月18日晚8点,俞敏洪和董宇辉将在东方甄选直播间见面。站长网2023-12-18 11:06:200000美国、英国和其他十几个国家签署协议,确保人工智能 「设计安全」
美国、英国及其他十几个个国家于周日联合发布了一份20页的文件,标志着首个详细的国际协议在如何保护人工智能(AI)免受恶意行为者滥用方面达成一致。美国一高级官员描述此协议为确保公司创建的AI系统从设计开始就是安全的重要步骤。站长网2023-11-27 09:20:290000打工人又被 AI “误伤”!印度 CEO:“我裁了 90% 的技术支持团队,都外包给了 AI”
自ChatGPT爆火后,但凡AI领域有任何最新进展,人们总会习惯性调侃一句:“人类距离被AI取代已经不远了。”说者或许无心,但现在看来,“AI将取代打工人”的调侃似乎真的在逐渐成为现实。站长网2023-07-16 10:43:500000