ChatGPT 还是谷歌 Gemini 更好?新 AI 模型尽管性能卓越但面临现实应用的挑战
谷歌最近推出了一款名为 Gemini 的新型人工智能模型,并试图通过一份报告证明其优于 OpenAI 的 GPT-4。根据谷歌首席执行官 Sundar Pichai 联合撰写的一篇博客文章,Gemini 在 32 项学术基准测试中的 30 项中表现优于 GPT-4,包括数学、阅读、编程和推理测试。
尽管 Gemini 相较于今年年初谷歌的 AI 发展有了巨大提升,但在许多测试中仅以微弱优势领先 OpenAI 的模型,这让其自夸显得有些迫切。
真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗?
这些测试成绩是否真的能促使用户从 ChatGPT 转向 Bard 还是个疑问。随着众多 AI 产品试图区分自己,比较点变得越来越抽象,以至于几乎毫无意义。例如,百度和 Meta 平台等科技巨头强调他们的大型语言模型拥有数十亿甚至数万亿的参数,而初创公司则夸耀其系统摄取了数以百万计的内容。
即便是领域专家对这类评估也持谨慎态度。OpenAI 研究员 Rowan Zellers 在社交网络 X 上发文称,对于目前十多个文本基准的信任程度并没有很好的判断。
Gemini 在实际应用中的表现比这些测试成绩更重要,用户迅速指出该系统仍容易出错,看起来并不比 OpenAI 的产品更好。谷歌自己在解释 Gemini 成绩对公众意味着什么时也遇到困难,称该模型是其迄今为止「最灵活」、「最有能力」和「最大」的模型。
Gemini 有三个不同的版本——Ultra、Pro 和 Nano——甚至谷歌的 Bard 也难以识别。当用户询问聊天机器人有关新的 Gemini 模型时,它将其引向了各种名为 Gemini Pro 的产品,包括高光地板涂料、便携式 PA 系统和压花机。
过度的基准测试有点像 PC 时代的规格战争。数十年前,计算机制造商通过处理器速度和内存大小等技术指标来推广其硬件。苹果公司被认为是将焦点转移到展示产品如何改善日常生活的新颖特性上。当史蒂夫·乔布斯首次推出 iPod 时,其千兆字节存储空间不如「1,000 首歌在你口袋里」的承诺重要。
AI 公司的问题在于,由于他们的软件声称几乎可以做任何事情,因此很难确切地区分特定产品的特点。例如,埃隆·马斯克将 xAI 的 Grok 定位为 anti-woke 的替代品,而 X 公司 CEO Linda Yaccarino 称其为「终极挚友」(不管这意味着什么)。
谷歌最明确的差异化特征在于其 Bard 的「多模态」功能演示中展示,即用户可以通过文本输入之外的方式与机器交互。在一个示例中,Bard 看到了一张分叉道路的图片,路线通向一只鸭子或熊的涂鸦。当被问及路口另一只鸭子应该走哪个方向时,Bard 正确猜测最安全的路径是朝向同类。
但谷歌后来承认,该演示有些作假,基于尚未发布的 Gemini 版本。当用户在 Bard 上进行相同测试时,它奇怪地建议鸭子应该骑自行车向南行驶 100 英里到罗德岛州。另一方面,ChatGPT 则完美地回答了这个提示。
对于这个问题,谷歌需要更加努力才能获得及格分数。
理想汽车:首销期全新L6单日定单破万、累计定单已超4.1万台
五一假期的热潮刚刚退去,理想汽车便交出了一份亮眼的成绩单。据官方最新公布的数据,自4月18日开启预售至5月5日首销期结束,全新理想L6的累计定单已突破惊人的41000台大关。特别值得一提的是,在5月5日首销权益的最后一天,理想L6单日定单数量便高达1万台,这一表现无疑显示了市场对这款车型的热烈追捧。站长网2024-05-06 18:06:290000谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定
谷歌宣布又有一款AI模型将加入Gemini,但这次它不仅仅是一个聊天机器人。据外媒报道称,谷歌将其Veo2视频生成模型整合进了Gemini应用程序和网站之中,让付费用户有机会使用谷歌“最先进的视频模型”创建短视频片段。站长网2025-04-16 10:12:110000Redmi K70系列累计销量超280万台:K70拿下2K-3K销量第一
Redmi官方发布了一则令人振奋的消息:自去年11月发布以来,K70系列手机在短短三个月内累计销量已经超过了280万台。这一成绩不仅展示了K70系列的高人气,也再次证明了Redmi在智能手机市场的强劲竞争力。站长网2024-02-29 10:41:590000腾讯觅影旗下产品结肠AI获批上市
根据国家药品监督管理局公告:腾讯觅影旗下产品“结肠息肉电子内窥镜图像辅助检测软件”获批上市。据介绍,这项通过创新医疗器械审查的人工智能辅助检测产品,有助于提升息肉检出率,辅助临床医生更高效、精准发现结肠息肉,从而降低结肠癌的发生率和死亡率。站长网2023-06-03 10:46:230000云从科技发布自研“从容大模型”
今日,云从科技自研大模型“从容大模型”正式发布。据悉,“从容大模型”具备问答、阅读理解、文学创作、逻辑推理、多轮对话、编程以及解题方面的能力。云从科技表示,在大模型时代,人工智能将像人类一样思考和工作,颠覆传统的交互方式,并将以问答、伴随和托管三种模式进行交互。站长网2023-05-18 10:31:140000