研究人员发现，谷歌Gemini表现不如GPT-3.5 Turbo

站长网2023-12-20 10:15:010阅

在近期的一项研究中，来自卡内基梅隆大学和BerriAI的研究团队对Google Gemini Pro进行了深入的评估，并发现其在多项任务中表现不如OpenAI的GPT-3.5Turbo。这一发现无疑是对Google在生成式人工智能领域与OpenAI竞争的雄心的一次沉重打击。

Gemini Pro 与 GPT-3.5Turbo 对比

Gemini Pro是Google公司最新推出的大型语言模型（LLM），其在演示视频中展示了其强大的功能。然而，研究团队发现Gemini Pro在多数任务上的表现不如OpenAI的老款GPT-3.5Turbo。这一结论令Google研究人员感到挫败，尤其是考虑到他们在Gemini的开发上投入了大量时间和精力。

尽管Gemini Pro的表现不佳，Google仍然保持乐观态度，表示他们即将推出更强大的版本Gemini Ultra，预计将于2024年初问世。据Google的内部研究称，Gemini Ultra在性能上超过了GPT-4。然而，这一消息并未能完全抚平研究结果给公司带来的打击。

研究方法与测试结果

研究团队在LiteLLM平台上测试了四个不同的LLM:Google Gemini Pro、OpenAI GPT-3.5Turbo、GPT-4Turbo和法国初创公司Mistral最新推出的Mixtral8x7B。测试内容涵盖了STEM、人文和社会科学领域的57个多项选择问题，以及一些与通用推理、数学和编程相关的任务。

研究结果显示，在多项选择问题的测试中，Gemini Pro的准确性低于GPT-3.5Turbo和GPT-4Turbo。Gemini Pro在人类性、形式逻辑、初等数学和专业医学等领域的表现较差，其中一部分原因是Gemini在某些问题上拒绝回答，声称由于安全和内容限制无法遵循。然而，在安全和高中微观经济学等领域，Gemini Pro的表现略优于GPT-3.5Turbo，但进步有限。

Gemini在语言翻译领域表现出色，优于GPT-3.5Turbo和GPT-4Turbo。然而，研究指出，Gemini Pro在某些语言对中阻止回应的情况下表现不佳，这暗示了一种过于激进的内容审查/安全系统。

对Google AI雄心和用户的影响

研究结果明显对Google在生成式人工智能领域与OpenAI竞争的雄心构成了打击。由于更强大的Gemini Ultra模型要到明年初才会发布，这可能意味着Google在AI性能上将至少在未来一段时间内落后于竞争对手。尽管如此，研究也显示，Mistral公司的Mixtral8x7B模型在大多数方面的表现也不如GPT-3.5Turbo，为Google在AI领域带来一丝希望。

尽管Gemini在某些方面表现出色，但研究结果让人难以忽视OpenAI目前在消费者和企业面向的生成式人工智能领域的领先地位。随着Gemini Ultra的推出，Google可能会迎头赶上，但目前GPT-4仍然是首选，至少直到Gemini Ultra在新的一年发布。

研究人员发现谷歌Gemini表现不如GPT3 5 Turbo

0000

评论列表

共(0)条

相关推荐

7个抖音儿童赚钱赛道
各位村民好，我是村长。在抖音做生意，服务好这四大群体，一定赚钱。女人、老人、小孩，宠物。大家平常关注比较多的还是女人，比如服装、美妆、百货、吃喝等等。但小孩这个群体，依然有比较大的机会。其一小孩这个群体还算比较庞大，每年有新生儿，另外从婴儿到五六年级以前的儿童，年龄段覆盖比较广。其二小孩作为下一代，从父母到老人，都愿意为其花钱，尤其现在很多都是独生子女，家庭条件也都不错。
站长网站长资讯2023-04-18 09:16:19
0000
站长资讯
法拉第未来：董事会并未考虑任命贾跃亭为联席 CEO
近日，法拉第未来在其官方声明中明确指出，公司董事会目前并未考虑任命贾跃亭为公司联席CEO的提议。这一声明与贾跃亭此前发布的个人视频声明形成了鲜明对比。
站长网2024-05-07 19:48:52
0000
站长资讯
Meta推新语言模型Toolformer：通过自主调用工具“击败” GPT-3
Facebook母公司Meta的人工智能研究人员推出了一种新的语言模型Toolformer，旨在处理自然语言处理用例中多个API的调用。Toolformer基于GPT-J，后者是一种67亿参数的开源语言模型。Meta的研究人员为该模型配备了一系列工具，它可以自主使用这些工具来完成任务，例如预测文本或回答数学问题。
站长网2023-05-12 20:31:37
0000
站长资讯
OpenAI竞争对手Mistral融资近5亿美元，估值达20亿美元，获英伟达和Salesforce支持
**划重点:**1.🌐MistralAI最终获得来自英伟达和Salesforce等投资者近5亿美元，估值达20亿美元。2.💼这轮融资将使Mistral成为OpenAI的强大竞争对手，得到业界巨头的支持，包括英伟达和Salesforce。3.📈此举突显人工智能领域的投资热潮，Mistral在全球商业市场引起关注。
站长网2023-12-05 10:37:22
0000
站长资讯
新加坡投资5200万美元计划发展东南亚大语言模型
**划重点:**1.🌐**国家级计划启动:**新加坡投资5200万美元美元，启动了国家多模态大语言模型计划，旨在发展东南亚语言模型，填补当前以西方为主的语言模型的关键空白。
站长网2023-12-05 15:32:26
0004