OpenAI 发布 DALL-E 3 文生图模型:与 ChatGPT 完全集成 在细节和提示保真度方面挑战极限
站长之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,这是其最新版本的 AI 图像合成模型,它与 ChatGPT 完全集成。

DALL-E 3 通过紧密遵循复杂的描述并处理图像内文本生成(如标签和标志)来渲染图像,这是早期模型所面临的挑战。目前处于研究预览阶段,将于十月初提供给 ChatGPT Plus 和企业客户。
与其前身一样,DALL-E 3 是一种文本到图像生成器,根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有透露关于 DALL-E 3 的技术细节,但以前版本的 DALL-E 的核心 AI 模型是基于由人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些是从像 Shutterstock 这样的库网站获得许可的。DALL-E 3 很可能也遵循了这一相同的方法,但使用了新的训练技术和更多的计算训练时间。
从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是迄今为止可用于按提示操作的图像合成模型中的一个巨大突破。尽管 OpenAI 的示例是精选的,以展示其效果,但它们似乎忠实地遵循了提示的指令,并以无需任何「黑科技」或提示工程即可令对象逼真地呈现出来。
与 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能够更有效地细化手部等小细节,从而默认情况下创建引人入胜的图像。
相比之下,来自另一竞争对手供应商 Midjourney 渲染了逼真的细节,但仍然需要对提示进行大量反直觉的调整才能控制图像输出。
DALL-E 3 似乎还可以处理图像中的文本,而其前身无法做到这一点(一些竞争模型,如 Stable Diffusion XL 和 DeepFloyd,在这方面表现得越来越好)。例如,包含「一幅画中,一个鳄梨坐在治疗师椅子上,说着『我感到内心空虚』,中间有一个坑孔大小的洞」的提示,创建了一个卡通鳄梨,角色的台词完美地被包含在一个对话气泡中。

图片来自OpenAI
值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地构建」的,并将作为 ChatGPT Plus 的一个集成功能推出,使 AI 助手能够作为头脑风暴的合作伙伴以一种与当前对话的背景相一致的上下文环境方式生成图像。这可能会带来新的能力。微软的 Bing Chat AI 助手,也是基于 OpenAI 的技术构建的,自去年三月以来就能够在对话中生成图像。
DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 在 2022 年 4 月推出了更强大的续作,以令人震惊的方式引发了 AI 生成图像的新时代,深深吸引了最初的封闭测试者。DALL-E 模型使用一种称为「潜在扩散」的技术,将噪音转化为它从训练数据集中获得的知识和提示的图像。同样的技术在去年 8 月也使开放权重模型 Stable Diffusion 诞生。
由于 DALL-E 是通过从人类创作的艺术作品的大规模数据集中获取概念来学习图像的,自从去年引入主流以来,AI 图像生成技术一直备受争议。这项技术引发了艺术家的抗议,他们担心它会取代他们或不道德地复制他们的风格,引发了关于未经版权持有人同意使用作为训练数据的被抓取图像的版权侵权的诉讼,以及关于美国版权办公室和美国地方法院对版权的新裁决。
作为对这些争议的回应,OpenAI 表示,DALL-E 3 将拒绝要求以在世艺术家风格制作图像的请求。OpenAI 还提供了一个表单,供创作者选择不让他们的图像用于训练未来的模型。这些措施似乎不太可能满足那些通常认为 AI 训练应该仅限于选择加入而不包含在默认图像数据集中的艺术家。
目前,美国的版权政策规定,纯粹由 AI 生成的艺术作品无法获得版权保护,因此使用 DALL-E 3 创建的任何图像都将属于公有领域。尽管 OpenAI 没有明确承认这一点,但它表示「您使用 DALL-E 3 创建的图像属于您,您无需我们的许可即可重新印刷、销售或制作商品。」这与去年 OpenAI 根据拥有所有生成物权的许可限制 DALL-E 2 图像使用的情况有了显著变化。
关于安全性,OpenAI 表示,与 DALL-E 2 一样,DALL-E 3 已经实施了关键字和图像检测过滤器,以限制其生成暴力、性或令人讨厌的内容。该系统还被编程拒绝生成涉及具名公众人物的请求,这一点在竞争的 AI 图像生成器 Midjourney 生成唐纳德·特朗普的虚假逮捕图像时曾引发问题。
OpenAI 表示,已经与被称为「红队成员」的专家合作,以识别和减轻潜在风险,如有害的偏见或制造宣传和虚假信息。OpenAI 没有提及其工具潜在用于以具有说服力的虚构来扭曲历史记录,尽管它表示正在尝试使用「来源分类器」工具,该工具可以帮助确定图像是否由 DALL-E 3 生成。
OpenAI 表示,这款 AI 图像生成器正在进行封闭测试。计划通过 API 在十月提供给 ChatGPT Plus 和企业客户,并在今年晚些时候在实验室中提供。
从社会摇到科目三,梗红人难红
胯部左右摇晃,双手接力摇摆,搭配着“汝为山河过客,却总长叹伤离别”的古风BGM,这就是时下最为出圈的舞蹈,“科目三”。这个如今已经难以考据其起源的网络老梗,最近突然焕发了新生。线下,人们追捧着跳“科目三”的小哥挤爆了海底捞门店和中国黄金;线上,只要愿意一蹭的网红,都能因此得到流量的馈赠。0000MIT等惊人发现:全世界AI已学会欺骗人类!背刺人类盟友,佯攻击败99.8%玩家
【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现,AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。AI教父Hinton的担心,不是没有道理。他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。当被问及,人工智能怎么能杀死人类呢?站长网2024-05-14 14:17:380000五一流水50万,年轻人捧红这门新生意
“不要灯红酒绿的夜,要山,要海,要自由!”4月初,稻稻在小红书刷到了一篇川西旅行团分享笔记,声称“同龄人纯玩、摄影师全程跟拍、深度环游川西”,私信咨询后,她果断支付了1000元订金,如今已经身在甘孜大草原。今年五一假期,主打年轻人出游的同龄人旅行团,一跃为旅游界“新顶流”,成了95后、00后们的心头好。站长网2024-05-03 00:58:520000苹果上架iPhone 14/Pro官翻机:起售价不到5000元
快科技5月25日消息,苹果每年在推出新iPhone之后,都会将前一代的Pro系列直接下架,无法通过官网购买。不过苹果最新在美国官网重新上架了iPhone14、iPhone14Pro和iPhone14ProMax三款机型,都是官方翻新机。美国苹果线上商城苹果iPhone14的起售价为619美元(约合4488元人民币),比全新价699美元便宜80美元,最高容量可以达到256GB。0000交个朋友淘宝直播间今晚上架首艘国产大邮轮订制包船之旅
交个朋友淘宝直播间宣布,今晚将上架首艘国产大邮轮。据悉,爱达・魔都号是首艘国产大型邮轮,全长323.6米,总吨位13.55万吨,拥有2125间舱房,可容纳5246名宾客。它融合了东西方美学,为宾客提供了匠心珍味、沉浸娱乐、潮流购物和创享空间等海上新场景。船上设有豪华酒店、剧场、水上乐园、餐厅、酒吧等设施,如同一座“移动的海上城市”。站长网2023-10-24 22:37:410000