OpenAI 发布 DALL-E 3 文生图模型:与 ChatGPT 完全集成 在细节和提示保真度方面挑战极限
站长之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,这是其最新版本的 AI 图像合成模型,它与 ChatGPT 完全集成。
DALL-E 3 通过紧密遵循复杂的描述并处理图像内文本生成(如标签和标志)来渲染图像,这是早期模型所面临的挑战。目前处于研究预览阶段,将于十月初提供给 ChatGPT Plus 和企业客户。
与其前身一样,DALL-E 3 是一种文本到图像生成器,根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有透露关于 DALL-E 3 的技术细节,但以前版本的 DALL-E 的核心 AI 模型是基于由人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些是从像 Shutterstock 这样的库网站获得许可的。DALL-E 3 很可能也遵循了这一相同的方法,但使用了新的训练技术和更多的计算训练时间。
从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是迄今为止可用于按提示操作的图像合成模型中的一个巨大突破。尽管 OpenAI 的示例是精选的,以展示其效果,但它们似乎忠实地遵循了提示的指令,并以无需任何「黑科技」或提示工程即可令对象逼真地呈现出来。
与 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能够更有效地细化手部等小细节,从而默认情况下创建引人入胜的图像。
相比之下,来自另一竞争对手供应商 Midjourney 渲染了逼真的细节,但仍然需要对提示进行大量反直觉的调整才能控制图像输出。
DALL-E 3 似乎还可以处理图像中的文本,而其前身无法做到这一点(一些竞争模型,如 Stable Diffusion XL 和 DeepFloyd,在这方面表现得越来越好)。例如,包含「一幅画中,一个鳄梨坐在治疗师椅子上,说着『我感到内心空虚』,中间有一个坑孔大小的洞」的提示,创建了一个卡通鳄梨,角色的台词完美地被包含在一个对话气泡中。
图片来自OpenAI
值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地构建」的,并将作为 ChatGPT Plus 的一个集成功能推出,使 AI 助手能够作为头脑风暴的合作伙伴以一种与当前对话的背景相一致的上下文环境方式生成图像。这可能会带来新的能力。微软的 Bing Chat AI 助手,也是基于 OpenAI 的技术构建的,自去年三月以来就能够在对话中生成图像。
DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 在 2022 年 4 月推出了更强大的续作,以令人震惊的方式引发了 AI 生成图像的新时代,深深吸引了最初的封闭测试者。DALL-E 模型使用一种称为「潜在扩散」的技术,将噪音转化为它从训练数据集中获得的知识和提示的图像。同样的技术在去年 8 月也使开放权重模型 Stable Diffusion 诞生。
由于 DALL-E 是通过从人类创作的艺术作品的大规模数据集中获取概念来学习图像的,自从去年引入主流以来,AI 图像生成技术一直备受争议。这项技术引发了艺术家的抗议,他们担心它会取代他们或不道德地复制他们的风格,引发了关于未经版权持有人同意使用作为训练数据的被抓取图像的版权侵权的诉讼,以及关于美国版权办公室和美国地方法院对版权的新裁决。
作为对这些争议的回应,OpenAI 表示,DALL-E 3 将拒绝要求以在世艺术家风格制作图像的请求。OpenAI 还提供了一个表单,供创作者选择不让他们的图像用于训练未来的模型。这些措施似乎不太可能满足那些通常认为 AI 训练应该仅限于选择加入而不包含在默认图像数据集中的艺术家。
目前,美国的版权政策规定,纯粹由 AI 生成的艺术作品无法获得版权保护,因此使用 DALL-E 3 创建的任何图像都将属于公有领域。尽管 OpenAI 没有明确承认这一点,但它表示「您使用 DALL-E 3 创建的图像属于您,您无需我们的许可即可重新印刷、销售或制作商品。」这与去年 OpenAI 根据拥有所有生成物权的许可限制 DALL-E 2 图像使用的情况有了显著变化。
关于安全性,OpenAI 表示,与 DALL-E 2 一样,DALL-E 3 已经实施了关键字和图像检测过滤器,以限制其生成暴力、性或令人讨厌的内容。该系统还被编程拒绝生成涉及具名公众人物的请求,这一点在竞争的 AI 图像生成器 Midjourney 生成唐纳德·特朗普的虚假逮捕图像时曾引发问题。
OpenAI 表示,已经与被称为「红队成员」的专家合作,以识别和减轻潜在风险,如有害的偏见或制造宣传和虚假信息。OpenAI 没有提及其工具潜在用于以具有说服力的虚构来扭曲历史记录,尽管它表示正在尝试使用「来源分类器」工具,该工具可以帮助确定图像是否由 DALL-E 3 生成。
OpenAI 表示,这款 AI 图像生成器正在进行封闭测试。计划通过 API 在十月提供给 ChatGPT Plus 和企业客户,并在今年晚些时候在实验室中提供。
科大讯飞刘庆峰:明年上半年对标GPT4
2023亚布力中国企业家论坛第十九届夏季高峰会于8月25日至27日在深圳举行,科大讯飞创始人、董事长刘庆峰出席相关论坛。刘庆峰还表示,今年科大讯飞定了一个目标,到今年10月24号,科大讯飞将发布通用大模型,全面对标ChatGPT,且要实现中文全面超越,英文跟它相当。“坦白讲,今天我们跟它还有差距,但是我们很清楚,10月份就能赶上,明年上半年就对标GPT4。”站长网2023-08-26 17:26:180000Krea AI正式发布视频生成功能 可自定义视频首尾帧
KreaAI正式发布了其最新的视频生成功能,这一更新包括了自定义视频首尾帧和为每张图片定义提示词的能力。这些新功能在易用性上进行了显著改进,并且现在可以自动将生成的视频高清化,但仅限会员使用。产品入口:https://top.aibase.com/tool/krea-ai视频生成功能亮点:自定义首尾帧:用户现在可以定义视频的起始和结束帧,为创作提供更多的个性化选项。站长网2024-05-09 23:07:180000“景点公主”打卡照生意,走红抖音小红书
“想变美,先变鬼。”如果你打开了一条以此为标题的视频,千万别以为误入了什么惊悚片,因为它呈现的很可能是最近大热的西双版纳妆造。视频中的妆容看上去一言难尽,而搭配亮片、头饰、服装等一整套异域风情装备后,下一秒,一位娇俏可爱的哈尼族公主就这样跃然于镜头前,短短几秒带来了惊艳的反差。自旅游市场复苏之后,来西双版纳打卡特色妆造的游客越来越多。站长网2023-05-06 15:52:480000文本到视频生成框架TF-T2V:可显著提升可扩展性与性能
#本文概要-TF-T2V介绍了一种创新性的文本到视频生成框架,通过独特的设计实现了卓越的可扩展性和性能提升。-该框架采用文本无关视频,解决了训练先进模型所需的大规模标注视频文本数据集的困难,为文本到视频生成领域带来新的可能性。-TF-T2V的双分支结构,分别关注空间外观生成和动态运动合成,使其能够生成高质量、连贯的视频,通过引入时间一致性损失进一步提升了视频的流畅性。站长网2024-01-01 14:54:200002魔搭社区开源多模态对齐统一框架OneLLM
OneLLM是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与LLM(LargeLanguageModel)对齐多模态输入。OneLLM还通过使用modalitytokens实现了在不同模态之间的切换。OneLLM的核心组件包括多模态token的tokenizer、通用编码器、统一的投影模块和大语言模型。站长网2023-12-22 08:44:560007