ChatGPT 还是谷歌 Gemini 更好?新 AI 模型尽管性能卓越但面临现实应用的挑战
谷歌最近推出了一款名为 Gemini 的新型人工智能模型,并试图通过一份报告证明其优于 OpenAI 的 GPT-4。根据谷歌首席执行官 Sundar Pichai 联合撰写的一篇博客文章,Gemini 在 32 项学术基准测试中的 30 项中表现优于 GPT-4,包括数学、阅读、编程和推理测试。
尽管 Gemini 相较于今年年初谷歌的 AI 发展有了巨大提升,但在许多测试中仅以微弱优势领先 OpenAI 的模型,这让其自夸显得有些迫切。
真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗?
这些测试成绩是否真的能促使用户从 ChatGPT 转向 Bard 还是个疑问。随着众多 AI 产品试图区分自己,比较点变得越来越抽象,以至于几乎毫无意义。例如,百度和 Meta 平台等科技巨头强调他们的大型语言模型拥有数十亿甚至数万亿的参数,而初创公司则夸耀其系统摄取了数以百万计的内容。
即便是领域专家对这类评估也持谨慎态度。OpenAI 研究员 Rowan Zellers 在社交网络 X 上发文称,对于目前十多个文本基准的信任程度并没有很好的判断。
Gemini 在实际应用中的表现比这些测试成绩更重要,用户迅速指出该系统仍容易出错,看起来并不比 OpenAI 的产品更好。谷歌自己在解释 Gemini 成绩对公众意味着什么时也遇到困难,称该模型是其迄今为止「最灵活」、「最有能力」和「最大」的模型。
Gemini 有三个不同的版本——Ultra、Pro 和 Nano——甚至谷歌的 Bard 也难以识别。当用户询问聊天机器人有关新的 Gemini 模型时,它将其引向了各种名为 Gemini Pro 的产品,包括高光地板涂料、便携式 PA 系统和压花机。
过度的基准测试有点像 PC 时代的规格战争。数十年前,计算机制造商通过处理器速度和内存大小等技术指标来推广其硬件。苹果公司被认为是将焦点转移到展示产品如何改善日常生活的新颖特性上。当史蒂夫·乔布斯首次推出 iPod 时,其千兆字节存储空间不如「1,000 首歌在你口袋里」的承诺重要。
AI 公司的问题在于,由于他们的软件声称几乎可以做任何事情,因此很难确切地区分特定产品的特点。例如,埃隆·马斯克将 xAI 的 Grok 定位为 anti-woke 的替代品,而 X 公司 CEO Linda Yaccarino 称其为「终极挚友」(不管这意味着什么)。
谷歌最明确的差异化特征在于其 Bard 的「多模态」功能演示中展示,即用户可以通过文本输入之外的方式与机器交互。在一个示例中,Bard 看到了一张分叉道路的图片,路线通向一只鸭子或熊的涂鸦。当被问及路口另一只鸭子应该走哪个方向时,Bard 正确猜测最安全的路径是朝向同类。
但谷歌后来承认,该演示有些作假,基于尚未发布的 Gemini 版本。当用户在 Bard 上进行相同测试时,它奇怪地建议鸭子应该骑自行车向南行驶 100 英里到罗德岛州。另一方面,ChatGPT 则完美地回答了这个提示。
对于这个问题,谷歌需要更加努力才能获得及格分数。
小红书粉丝最多的品牌号,做对了什么?
最近,因为和中国邮政联名开店,蜜雪冰城又被年轻人疯狂玩梗。在小红书上,蜜雪冰城也主动用了“雪雪我啊,瞒不住了”这样的文案,来回应网友的调侃,单条笔记点赞达到8.7万,加上用户乐意将蜜雪冰城和瑞幸组CP,因此评论区精彩纷呈。“善于玩梗和接梗”的品牌气质,让蜜雪冰城在小红书收获了诸多好评,其开设的两个品牌账号,粉丝量皆位居小红书品牌号头部。@蜜雪冰城小红书笔记截图站长网2023-08-09 20:03:270000席卷直播间!UP主改装经典游戏,两周涨粉360万
近日,一款名为《植物大战僵尸杂交版》的游戏席卷了抖音、B站各大游戏主播的直播间。而这款游戏的制作者并非官方,而是一位游戏UP主——潜艇伟伟迷。这款游戏的火热出圈,也让他迅速走红,两周涨粉360万;此外,这款野生游戏还引起了《植物大战僵尸》官方的注意,称希望进行合作、在正版游戏中加入这些新玩法。然而,尽管热度这么高,但UP主并未通过这款游戏赚到多少钱,反而是盗版商趁机倒卖、做起灰产......站长网2024-06-17 16:13:220001三星新推AI智能冰箱可以根据用户饮食需求设计食谱
划重点:1.🌿内置摄像头辨识食物,App提供个性化食谱建议2.📲与Galaxy手机镜像,32英寸触摸屏支持TikTok和YouTube3.🍽️强化的AI功能,如视觉AI识别食物并提供更多定制化选项站长网2023-12-28 11:07:300000人形机器人将进宝马工厂「实习」 之前它还只会冲咖啡
前段时间,名为“Figure01”的机器人因会冲咖啡而走红。这两天,它还找到了新工作,要去宝马的美国工厂“实习”,干得好的话,一两年后就能到流水线上参与“造车”了。站长网2024-01-23 09:34:5400013天让女人为我花2000万,3D男人不只能教rapper做事
嘻哈圈与乙游圈的摩擦不出意外地以rapper滑跪告终,留下最后一批看客边摸下巴边忍不住开始怀疑:他们这是不是在联合炒作?联合炒作应该不至于,硬糖君这种营销鬼才也想不出找rapper来撩架,真当是《最后的厂牌》走进现实呢?顺势而为总归有点,这种天降流量不吃一口也算暴殄天物。站长网2024-09-05 16:50:470000