研究人员发现,谷歌Gemini表现不如GPT-3.5 Turbo
在近期的一项研究中,来自卡内基梅隆大学和BerriAI的研究团队对Google Gemini Pro进行了深入的评估,并发现其在多项任务中表现不如OpenAI的GPT-3.5Turbo。这一发现无疑是对Google在生成式人工智能领域与OpenAI竞争的雄心的一次沉重打击。
Gemini Pro 与 GPT-3.5Turbo 对比
Gemini Pro是Google公司最新推出的大型语言模型(LLM),其在演示视频中展示了其强大的功能。然而,研究团队发现Gemini Pro在多数任务上的表现不如OpenAI的老款GPT-3.5Turbo。这一结论令Google研究人员感到挫败,尤其是考虑到他们在Gemini的开发上投入了大量时间和精力。
尽管Gemini Pro的表现不佳,Google仍然保持乐观态度,表示他们即将推出更强大的版本Gemini Ultra,预计将于2024年初问世。据Google的内部研究称,Gemini Ultra在性能上超过了GPT-4。然而,这一消息并未能完全抚平研究结果给公司带来的打击。
研究方法与测试结果
研究团队在LiteLLM平台上测试了四个不同的LLM:Google Gemini Pro、OpenAI GPT-3.5Turbo、GPT-4Turbo和法国初创公司Mistral最新推出的Mixtral8x7B。测试内容涵盖了STEM、人文和社会科学领域的57个多项选择问题,以及一些与通用推理、数学和编程相关的任务。
研究结果显示,在多项选择问题的测试中,Gemini Pro的准确性低于GPT-3.5Turbo和GPT-4Turbo。Gemini Pro在人类性、形式逻辑、初等数学和专业医学等领域的表现较差,其中一部分原因是Gemini在某些问题上拒绝回答,声称由于安全和内容限制无法遵循。然而,在安全和高中微观经济学等领域,Gemini Pro的表现略优于GPT-3.5Turbo,但进步有限。
Gemini在语言翻译领域表现出色,优于GPT-3.5Turbo和GPT-4Turbo。然而,研究指出,Gemini Pro在某些语言对中阻止回应的情况下表现不佳,这暗示了一种过于激进的内容审查/安全系统。
对Google AI雄心和用户的影响
研究结果明显对Google在生成式人工智能领域与OpenAI竞争的雄心构成了打击。由于更强大的Gemini Ultra模型要到明年初才会发布,这可能意味着Google在AI性能上将至少在未来一段时间内落后于竞争对手。尽管如此,研究也显示,Mistral公司的Mixtral8x7B模型在大多数方面的表现也不如GPT-3.5Turbo,为Google在AI领域带来一丝希望。
尽管Gemini在某些方面表现出色,但研究结果让人难以忽视OpenAI目前在消费者和企业面向的生成式人工智能领域的领先地位。随着Gemini Ultra的推出,Google可能会迎头赶上,但目前GPT-4仍然是首选,至少直到Gemini Ultra在新的一年发布。
GPT-3.5模型输出被检测出高达60%含抄袭内容
抄袭检测器Copyleaks的一份报告显示,OpenAI的GPT-3.5输出中有60%包含某种形式的抄袭。该公司使用了一种专有的评分方法,考虑相同的文本、微小的改动、释义等来分配“相似性分数”。站长网2024-02-26 17:04:190001德国电信等多家全球运营商巨头启动AI联盟
据mobileworldlive消息,德国电信、e&、SK电信(SKT)和新加坡电信签署了一项协议,成立一个全球电信人工智能联盟,旨在利用这项技术开拓新的商业机会,加速行业增长。这四家公司签署了一份多边谅解备忘录(MoU),同意共同开发一个平台,用于开发新的人工智能工具,以改善现有的电信服务,并部署数字助理。站长网2023-07-28 14:45:520000秋招上岸大厂,应届生有多拼?
2023年的大厂秋招临近尾声,求职者几家欢喜几家愁。有人手握5个offer,顶级大厂统统给开了绿灯,掌握了求职主动权。有网友调侃,秋招人的高光时刻,是集齐BAT(字节跳动、阿里、腾讯)。也有人在本次秋招中,至今还没拿到一个offer,在阶段性振作与焦虑、迷茫中徘徊。大厂秋招是每年应届毕业生较早的一批求职机会,能够早早拿到offer,意味着更多选择机会,更能从容应对学业。站长网2023-10-30 09:11:270000华为申请合界商标 此前已注册享界、傲界等类似商标
华为技术有限公司近期在运输工具类别下申请注册了名为“合界”的商标。这是华为近期申请的一系列与“界”字相关的商标之一。在此之前,华为已经成功注册了多个类似商标,包括“问界”、“智界”、“享界”、“傲界”、“尊界”和“幻界”等。其中,“问界”和“智界”是华为与赛力斯和奇瑞合作的品牌。站长网2024-02-04 14:33:250000弘玑Cyclone完成约4000万美元C+轮融资 加速AIGA研发落地
RPA软件和解决方案供应商弘玑Cyclone于7月完成约4000万美元的C轮融资。结合弘玑在2021年完成的1.5亿美金C轮融资,累计近两亿美金融资,创下同行业最高融资规模纪录。C轮由华兴资本担任独家财务顾问。本轮融资将主要用于AIGA(AIGeneratedAutomation即生成式自动化)企业级产品的研发落地、行业资源整合与市场拓展。站长网2023-08-04 11:06:510000