研究人员发现,谷歌Gemini表现不如GPT-3.5 Turbo
在近期的一项研究中,来自卡内基梅隆大学和BerriAI的研究团队对Google Gemini Pro进行了深入的评估,并发现其在多项任务中表现不如OpenAI的GPT-3.5Turbo。这一发现无疑是对Google在生成式人工智能领域与OpenAI竞争的雄心的一次沉重打击。
Gemini Pro 与 GPT-3.5Turbo 对比
Gemini Pro是Google公司最新推出的大型语言模型(LLM),其在演示视频中展示了其强大的功能。然而,研究团队发现Gemini Pro在多数任务上的表现不如OpenAI的老款GPT-3.5Turbo。这一结论令Google研究人员感到挫败,尤其是考虑到他们在Gemini的开发上投入了大量时间和精力。
尽管Gemini Pro的表现不佳,Google仍然保持乐观态度,表示他们即将推出更强大的版本Gemini Ultra,预计将于2024年初问世。据Google的内部研究称,Gemini Ultra在性能上超过了GPT-4。然而,这一消息并未能完全抚平研究结果给公司带来的打击。
研究方法与测试结果
研究团队在LiteLLM平台上测试了四个不同的LLM:Google Gemini Pro、OpenAI GPT-3.5Turbo、GPT-4Turbo和法国初创公司Mistral最新推出的Mixtral8x7B。测试内容涵盖了STEM、人文和社会科学领域的57个多项选择问题,以及一些与通用推理、数学和编程相关的任务。
研究结果显示,在多项选择问题的测试中,Gemini Pro的准确性低于GPT-3.5Turbo和GPT-4Turbo。Gemini Pro在人类性、形式逻辑、初等数学和专业医学等领域的表现较差,其中一部分原因是Gemini在某些问题上拒绝回答,声称由于安全和内容限制无法遵循。然而,在安全和高中微观经济学等领域,Gemini Pro的表现略优于GPT-3.5Turbo,但进步有限。
Gemini在语言翻译领域表现出色,优于GPT-3.5Turbo和GPT-4Turbo。然而,研究指出,Gemini Pro在某些语言对中阻止回应的情况下表现不佳,这暗示了一种过于激进的内容审查/安全系统。
对Google AI雄心和用户的影响
研究结果明显对Google在生成式人工智能领域与OpenAI竞争的雄心构成了打击。由于更强大的Gemini Ultra模型要到明年初才会发布,这可能意味着Google在AI性能上将至少在未来一段时间内落后于竞争对手。尽管如此,研究也显示,Mistral公司的Mixtral8x7B模型在大多数方面的表现也不如GPT-3.5Turbo,为Google在AI领域带来一丝希望。
尽管Gemini在某些方面表现出色,但研究结果让人难以忽视OpenAI目前在消费者和企业面向的生成式人工智能领域的领先地位。随着Gemini Ultra的推出,Google可能会迎头赶上,但目前GPT-4仍然是首选,至少直到Gemini Ultra在新的一年发布。
网信办:6月下旬以来下架324个诱导未成年人不良行为违规App
国家网信办发布了“清朗·2023年暑期未成年人网络环境整治”专项行动曝光第一批典型处置案例。国家网信办表示,6月下旬以来,网信部门深入开展“清朗·2023年暑期未成年人网络环境整治”专项行动,聚焦未成年人较为活跃的网站平台、产品功能和位置版块,及时发现处置危害未成年人身心健康的突出问题,有力遏制一些乱象隐形变异、反弹反复,为未成年人营造健康向上的网络环境。现将部分典型案例通报如下:站长网2023-08-29 15:23:260000视频号卖女装,热销7万件。
各位村民好,我是村长。一个卖女装的账号,在视频号卖出了7.4万单,客单价均在700以上。这是我无意间看到的一个账号,觉得挺有意思的,值得和大家一起来分享。01视频号能不能卖货许多人做了一圈视频号,最终还是回去做抖音。还有一些人还在观望没有入局,因为大家都担心一点,那就是视频号到底能不能出单。关于这一点,我觉得大家不用质疑,视频号肯定能卖出去货。站长网2023-05-19 09:10:480000AI2发布大语言模型开源数据集Dolma 包含3万亿个token
文章概要:1.AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。2.Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。3.Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。站长网2023-08-25 10:54:080000字节AI为何凶猛:重启App工厂,争抢“豆包”,连模型也要赛马
2023年8月18日,字节跳动旗下AI对话产品Grace,更名为「豆包」。在百模大战一波又一波密集的“重磅发布”中,这条当时看着毫不起眼的消息,悄然开启了字节大模型的多重宇宙。从时间线来看,字节跳动的确晚了。相比于当时反应迅速的百度和阿里,没有发布基础模型的字节,彼时并无法靠「豆包」来说服质疑它的观众们。0000GitHub前CEO回应:Copilot服务亏损是假消息 暗示成本低于价格
要点:1.微软前GitHub首席执行官NatFriedman回应关于GitHubCopilot服务亏损的传闻,称其为假消息,暗示成本低于价格。2.传闻指出GitHubCopilot在前几个月亏损惨重,每用户每月亏损高达20美元,有些用户达到80美元。站长网2023-10-13 14:35:240001