研究人员发现,谷歌Gemini表现不如GPT-3.5 Turbo
在近期的一项研究中,来自卡内基梅隆大学和BerriAI的研究团队对Google Gemini Pro进行了深入的评估,并发现其在多项任务中表现不如OpenAI的GPT-3.5Turbo。这一发现无疑是对Google在生成式人工智能领域与OpenAI竞争的雄心的一次沉重打击。
Gemini Pro 与 GPT-3.5Turbo 对比
Gemini Pro是Google公司最新推出的大型语言模型(LLM),其在演示视频中展示了其强大的功能。然而,研究团队发现Gemini Pro在多数任务上的表现不如OpenAI的老款GPT-3.5Turbo。这一结论令Google研究人员感到挫败,尤其是考虑到他们在Gemini的开发上投入了大量时间和精力。
尽管Gemini Pro的表现不佳,Google仍然保持乐观态度,表示他们即将推出更强大的版本Gemini Ultra,预计将于2024年初问世。据Google的内部研究称,Gemini Ultra在性能上超过了GPT-4。然而,这一消息并未能完全抚平研究结果给公司带来的打击。
研究方法与测试结果
研究团队在LiteLLM平台上测试了四个不同的LLM:Google Gemini Pro、OpenAI GPT-3.5Turbo、GPT-4Turbo和法国初创公司Mistral最新推出的Mixtral8x7B。测试内容涵盖了STEM、人文和社会科学领域的57个多项选择问题,以及一些与通用推理、数学和编程相关的任务。
研究结果显示,在多项选择问题的测试中,Gemini Pro的准确性低于GPT-3.5Turbo和GPT-4Turbo。Gemini Pro在人类性、形式逻辑、初等数学和专业医学等领域的表现较差,其中一部分原因是Gemini在某些问题上拒绝回答,声称由于安全和内容限制无法遵循。然而,在安全和高中微观经济学等领域,Gemini Pro的表现略优于GPT-3.5Turbo,但进步有限。
Gemini在语言翻译领域表现出色,优于GPT-3.5Turbo和GPT-4Turbo。然而,研究指出,Gemini Pro在某些语言对中阻止回应的情况下表现不佳,这暗示了一种过于激进的内容审查/安全系统。
对Google AI雄心和用户的影响
研究结果明显对Google在生成式人工智能领域与OpenAI竞争的雄心构成了打击。由于更强大的Gemini Ultra模型要到明年初才会发布,这可能意味着Google在AI性能上将至少在未来一段时间内落后于竞争对手。尽管如此,研究也显示,Mistral公司的Mixtral8x7B模型在大多数方面的表现也不如GPT-3.5Turbo,为Google在AI领域带来一丝希望。
尽管Gemini在某些方面表现出色,但研究结果让人难以忽视OpenAI目前在消费者和企业面向的生成式人工智能领域的领先地位。随着Gemini Ultra的推出,Google可能会迎头赶上,但目前GPT-4仍然是首选,至少直到Gemini Ultra在新的一年发布。
OpenAI 发布 ChatGPT 官方 App 大更新:支持 iPad、Siri 和快捷指令
OpenAI发布的ChatGPT官方iOS应用程序迎来了重大更新。该应用程序已经在上个月登陆了美国、英国、法国、德国和韩国等AppStore,并且成为该市场上最受欢迎的免费应用程序。站长网2023-06-09 19:25:540002Canalys:第一季度中国个人电脑市场出货下降24%
Canalys发布报告称,2023年第一季度,中国大陆个人电脑(台式机、笔记本和工作站)出货量同比下降24%至890万台。台式机(包括台式工作站)出货量下降28%至280万台,笔记本电脑(包括移动工作站)出货量下降22%至610万台。平板电脑出货逆势上扬,总出货量同比增长38%至650万台。站长网2023-05-24 09:24:340000《封神》破14亿,北京文化想翻身
备受争议的暑期档电影《封神第一部》,截止今日已经票房突破14亿,升至内地影史总榜第60名,位列今年年度票房榜第7名。猫眼预测,《封神第一部》票房为24亿元。资料显示,《封神第一部》是系列电影“封神三部曲”中的第一部,由费翔、李雪健、黄渤、陈坤、袁泉、夏雨、于适、陈牧驰等明星联袂出演。由乌尔善导演,A股上市公司北京文化出品、制作、发行。站长网2023-08-05 10:11:560000Cursor:强大的 AI 代码编辑器 可自动为代码注释
Cursor是一款基于GPT驱动的强大代码编辑器,旨在辅助程序员进行日常编码。通过智能注释、代码解释、代码生成和改写等功能,大幅提升程序员的编码效率和质量。无论是简化日常编码工作,还是解决特定领域的编码问题,Cursor都是一款可靠的工具选择。Cursor免费版提供每月100次使用机会,若需要更多功能,可选择付费版,每月10美元。官网地址:https://www.cursor.so/站长网2023-08-10 12:11:040004ChatGPT 在美国工作场所走红,隐患引发警觉
本文概要:1.虽然存在泄露机密的担忧,但许多美国员工仍在工作中使用ChatGPT。2.谷歌、微软等公司已限制使用ChatGPT,引发对安全性的担忧。3.一些公司积极测试ChatGPT,但仍需谨慎对待其潜在风险。根据路透社/Ipsos对美国2,625名成年人进行的民意调查显示,尽管存在担忧,但许多美国员工仍在工作中使用ChatGPT。站长网2023-08-11 15:44:420001