谷歌被打脸!Gemini Pro被证实和GPT3.5差距不大
要点:
在CMU的研究中,Gemini Pro被与GPT-3.5和Mistral8×7B进行了深入的比较,结果显示GPT-3.5在多个任务上几乎全面优于Gemini Pro,但差距不大。
通过测试任务包括基于知识的问答、通用推理、数学问题、代码生成等领域,Gemini Pro在某些任务上表现较差,但在特定任务中超越了GPT-3.5。
文章强调Gemini Pro是多模态的,通过视频、文本和图像训练,而GPT-3.5Turbo和GPT-4Turbo主要基于文本,Mixtral是开源竞争对手。
谷歌最新发布的Gemini Pro自发布以来备受瞩目,谷歌声称其优于GPT-3.5。然而,CMU的研究通过深入的实验对比,展示了GPT-3.5在多个任务上的全面优势。Gemini Pro虽然在某些任务上稍显不足,但整体表现与GPT-3.5相近,为大模型领域的竞争增添了新的火花。
论文地址:https://arxiv.org/pdf/2312.11444.pdf
研究涉及了基于知识的问答、通用推理、数学问题、代码生成等多个领域。在基于知识的问答任务中,Gemini Pro在一些子任务上落后于GPT-3.5,尤其在多选题答案输出中显示了一定的偏见。通用推理测试中,Gemini Pro的精度略低于GPT-3.5Turbo,尤其在处理较长、复杂问题时表现不佳,而GPT-4Turbo则表现更为稳健。
数学问题领域的测试包括小学数学基准、稳健推理能力、不同语言模式和问题类型等。Gemini Pro在某些任务上略显不足,特别是在多样化的语言模式任务中,表现较GPT-3.5Turbo稍逊。在代码生成方面,Gemini Pro在两项任务上的表现均低于GPT-3.5Turbo,与GPT-4Turbo相比则差距更大。
总体而言,Gemini Pro作为多模态模型,尽管在某些任务上稍显不足,但在特定领域表现出色,超越了GPT-3.5。然而,在大多数测试中,GPT-3.5Turbo仍然保持领先地位,证明其在开源模型中的卓越性能。这一研究为科技领域的大模型竞争提供了客观中立的第三方对比,为未来的模型发展提供了有益的参考。
英伟达的人工智能视频超分辨率技术现已支持 RTX 20 系列 GPU
站长之家(ChinaZ.com)10月18日消息:英伟达正在提升RTX20系列GPU用户的游戏体验,一款新的GPU驱动程序现在允许这些较旧的RTXGPU使用RTXVideoSuperResolution技术来提高旧视频的清晰度。站长网2023-10-18 21:22:230000特斯拉儿童版cybertruck将进入中国 京东冠名跨年晚会将送出
特斯拉最近推出了儿童版的cybertruck,这款车型与成人版的设计非常相似,充满了前卫感。儿童版cybertruck最大的亮点在于其内置的两个可调节的儿童座椅,适合6岁到12岁的孩子乘坐。此外,它还配备了实用的LED头尾灯。目前,这款儿童版cybertruck在美国官网已经上线,并且处于缺货状态。同时,首批特斯拉儿童版cybertruck也将登陆国内市场。站长网2023-12-28 10:18:080000OpenAI推出GPT-3.5 Turbo微调功能 可改进模型性能
OpenAI现已推出了GPT-3.5Turbo的微调功能,开发者可以根据自己的使用场景对模型进行定制,以获得更好的性能,而GPT-4的微调将于今年秋天推出。微调后的GPT-3.5Turbo在某些任务上可以与基础的GPT-4模型相媲美甚至超越。微调的数据由客户所有,不会被OpenAI或其他机构用于训练其他模型。站长网2023-08-23 18:08:390000消息称蚂蚁集团正研发大模型 内部定名贞仪
据科创板日报报道,蚂蚁集团的技术研发团队正在自研语言和多模态大模型,内部命名为“贞仪”。今年4月,清华大学与蚂蚁集团签署合作协议。据悉,双方将开展“安全通用大模型”的技术路线和落地研究,以应对大模型技术爆发时代的安全科技生产力问题,及通用AI能力广泛应用带来的新型未知风险防控。站长网2023-06-21 16:57:560000单条视频涨粉670万,@大圆哥 突然爆火的秘密藏在剧情里
近日,一条“爱意随风起,风止意难平,遗憾终究是遗憾”的抖音视频火了,截至目前点赞量达到1294万,转发量493万。凭借着这条视频,@大圆哥也因此位列抖音涨粉榜第一,两周涨粉超过670万,目前抖音粉丝量达到1523万。该视频以遗憾为主题,讲述了@大圆哥的爱情故事,并带火了BGM《其实都没有》,网友纷纷在评论区分享自己的故事,一场情感共振让视频持续发酵。站长网2023-11-04 09:31:410001