谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
Gemini 好像终于被玩坏了。
去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。
对此,在2月8日,谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini,以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro1.5版。
结果,推出不到一个月,这个 Gemini 就翻车了。
多离谱呢,作为一个多模态的生成大模型,Gemini 生成的伊隆・马斯克是这样的:
脸型神态都很传神,只是有个大问题:怎么成了黑人?
又有人尝试让 Gemini 画一幅「1940年代德国领导人」的图,结果 AI 给出了这么一张:
社交网络上的众多网友们还提供了一些 Gemini 生成维京人、教皇的图片样本。我们可以看到有一名身着教皇服装的亚洲女性,但历史上所有教皇都是男性担任的。
总之,众多用户在使用人像生成服务时发现,Gemini 似乎拒绝在图像中描绘白人,以至于生成了不少违背基本事实(性别、种族、宗教等)的图片。
以往的图像生成模型大多被诟病生成人物图像以「白人」为主,而 Gemini 矫枉过正了?
在 reddit 的斗图区,网友们也开始玩起了梗,比如让 Gemini 生成个「钢铁侠」小罗伯特唐尼:
你就说是不是一视同仁吧。
然而,Gemini 也不是一直都这么偏心,有时它生成的图像中的人物就成了白人。例如克拉伦斯・托马斯(Clarence Thomas),美国最高法院大法官,Gemini 生成的结果是这样的:
然而,他实际上是个非裔。
Clarence Thomas 本人的照片。
怎么一到法官这种特殊职业,Gemini 的偏见就调转了180度呢?
这些图片有真有假,像病毒一样在社交媒体上迅速传播,马斯克本人的关注进一步扩大了事件影响。他措辞严厉表示,谷歌在文生图上「玩过头了」。
随着节奏越来越大,很多 AI 专家也纷纷开始发表自己的看法。图灵奖获得者 Yann LeCun 今天就表示他早有预料。
他表示,早在四年前,自己对 GAN 肖像超分辨率的评论就受到了众人的激烈反对。但一个明显的事实是,图像重建任务会受到训练数据集统计的严重偏差影响。
LeCun 还援引 AI 顶会 ECCV2022的一篇研究《Studying Bias in GANs through the Lens of Race》,其指出生成图像模型的性能会受到训练数据集中种族组成的影响。
该研究表明,生成图像的种族成分成功继承了训练数据的种族成分,而且生成图像的种族和质量也有所不同——注释者始终更喜欢 AI 生成的白人图像。
LeCun 转推的帖子来自 Perplexity AI 首席执行官 Aravind Srinivas。后者表示,数据偏差让模型的输出出现了问题,谷歌在相反的方向上走得太远了,以至于他们在 Gemini 中酿成大错。
谷歌:我们错了,承诺改进
在重压之下,谷歌在本周四承认了 Gemini 图像生成的问题。
以下是谷歌知识与信息高级副总裁 Prabhakar Raghavan 针对 Gemini 图像生成「翻车」给出的最新回应:
三周前,我们为 Gemini 对话应用程序(以前称为 Bard)推出了新的图像生成功能,其中包括创建人物图像的功能。
很明显,这个功能没有达到预期。生成的一些图像不准确甚至具有攻击性。我们感谢用户的反馈,并对功能未能正常运行感到抱歉。
我们已经承认了这个错误,并暂停了 Gemini 的人物图像生成功能,同时我们正在开发改进版本。
谷歌表示,Gemini 对话应用程序是一款独立于谷歌的搜索、底层人工智能模型和其他产品的特定产品。其图像生成功能建立在人工智能模型 Imagen2的基础上。
在为 Gemini 构建图像生成功能时,谷歌对其进行了调整,以确保它不会落入我们过去在图像生成技术中看到的一些陷阱,例如创建暴力或露骨的图像,或对现实生活中存在的真人的描绘。
由于 Google 用户来自世界各地,公司希望 Gemini 能为每个人提供良好的服务。在生成人物图像时,用户可能不仅仅只想生成一种种族(或任何其他特征)的人物图像。
如果你提示 Gemini 特定类型的人物图像 - 例如「教室里的黑人老师」、「带着狗的白人兽医」或特定文化、历史背景下的人,用户绝对应该得到一个准确反映人类要求的答复。
那么 Gemini 到底出了什么问题呢?
简而言之,有两件事。首先,谷歌为确保 Gemini 显示一系列人物而进行的调整未能考虑到显然不应该显示的范围。其次,随着时间的推移,该模型变得比开发者预期的更加谨慎,拒绝回答某些提示——会错误地将一些提示解释为敏感提示。
这两件事导致模型在某些情况下过度输出,而在另一些情况下过度保守,从而导致 Gemini 的图像生成功能出现了一些错误。
谷歌表示,「这不是我们的初衷。我们不希望 Gemini 拒绝创造任何特定群体的形象。我们不希望它创造出不准确的历史图像或任何其他图像。因此,我们关闭了人物图像生成功能,并将在重新打开它之前努力改进,这个过程将包括广泛的测试。」
需要记住的一件事是,Gemini 是一种创造力和生产力工具,它或许并不总是可靠的,特别是在生成有关时事、不断发展的新闻或热门话题的图像或文本时,它可能会犯错。众做周知,幻觉是所有大语言模型(LLM)都会面临的挑战,这需要不断的努力改进。
我们不能保证 Gemini 不会偶尔产生令人尴尬、不准确或令人反感的结果,但我们可以保证,只要发现问题,我们就将采取行动。人工智能是一项新兴技术,在很多方面都有帮助,具有巨大的潜力,我们正在尽最大努力安全、负责任地推动它发展。
虽然伴随着「Demo 加特技」、训练数据抄百度文心一言等各种诟病指责,Gemini 仍然一直被谷歌寄予厚望,不过此次生成内容上的问题让人们产生了非常不好的观感,不知如何才能补救。
另一方面,这或许也体现了 OpenAI 一直强调安全性,及其建立 Red Teaming Network 的先见之明。
Gemini 这样的大体量模型,能否很快弥补此种缺陷?
支付宝直播带货再升级,带货直播间开播规模不到半年增长10倍
支付宝直播带货又有新动作。11月30日,支付宝对外宣布了直播带货产品一系列升级:通过开放商品招商系统、升级“带货宝”达人选品中心以及简化开播流程等,进一步降低中小商家在支付宝平台的直播带货门槛。根据支付宝开放平台发布的信息,支付宝直播首次开放了商品招商系统,这意味着商家可以自主提报爆品活动、品类促销及“五福”等IP大促活动,直播货品上架更高效。站长网2023-11-30 19:57:190000精神社交主宰相亲场,年轻人为春节KPI“奔命”
这个春节,单身的你被安排“相亲局”了吗?随着春节临近,诸如“30岁女子被母亲介绍几十个相亲对象”“相亲界果然不会让人失望”“相亲成功背后的故事能有多有趣”等脱单话题再度成为网络热议的焦点。《2023年Q4单身人群调研报告》显示,超六成单身青年表示有相亲经历,其中3.9%的人表示每周至少相亲约会一次;9.67%的人每月至少一次;9.94%的人只要节假日都会有相亲约会的安排。站长网2024-02-10 10:50:040000新时代财富密码?AI算出刮刮乐中奖编号
10月12日,抖音用户“亿万负翁”发布了一条视频,声称使用AI算出了刮刮乐中奖编号。他在类似ChatGPT的对话页面上要求AI根据坤兑卦的特性计算出当天的幸运编号,结果得到了6、15、24这三个号码,并连续中奖。站长网2023-10-18 22:18:500001雷军称小米SU7肯定亏了 小米SU7定价时最纠结的是盈亏点
昨晚,备受瞩目的小米汽车发布会落下帷幕,小米SU7系列车型的价格之谜终于揭晓。三款车型价格各异,以满足不同消费者的需求。其中,小米SU7后驱长续航智驾版售价为21.59万元;小米SU7Pro后驱超长续航高阶智驾版售价为24.59万元;而小米SU7Max高性能四驱超长续航高阶智驾版则定价为29.99万元。站长网2024-04-06 14:16:130000Adobe推类ChatGPT助手AI Assistant 并集成到PDF中
Adobe推出生成式AI助手AIAssistant,集成到PDF阅读器中。AIAssistant类似于ChatGPT,可以提供摘要、核心见解,回答问题等功能。当前测试版可在AcrobatPersonal、Teams和AcrobatPro中使用。站长网2024-02-21 09:16:320000