登陆注册
1475

Stability AI新文本到图像模型DeepFloyd IF 拥有深度文本理解能力

站长网2023-05-08 15:46:140

Stability AI及其多模态 AI 研究实验室 DeepFloyd 宣布发布 DeepFloyd IF 研究版,这是一种尖端的文本到图像级联像素扩散模型,并且可以智能地将文本集成到图像中 该模型最初仅限于非商业、研究许可使用场景,但计划在未来发布开源版本。

DeepFloyd IF 拥有几个显着的特点,包括:

深度文本指提示词理解能力:该模型使用T5-XXL-1.1作为文本编码器,具有多个文本-图像交叉注意力层,确保提示和图像之间更好的对齐。

连贯清晰的文本和生成的图像: DeepFloyd IF 可以生成包含具有不同属性和空间关系的对象的图像。

高度逼真:该模型在 COCO 数据集上取得了令人印象深刻的零样本 FID 分数6.66。

纵横比转换:该模型可以生成非标准纵横比的图像,包括垂直、水平和标准方形纵横比。

零样本迁移能力实现图像到图像的转换:该模型可以修改图像的样式、图案和细节,同时保留其基本形式。

以下是 DeepFloyd IF 创建的一些示例:

DeepFloyd IF 的模块化、级联、像素扩散设计由多个协同交互的神经模块组成。该模型在像素空间中工作,使用不同分辨率的单独训练模型以级联方式处理高分辨率数据。这涉及生成低分辨率样本的基本模型和生成高分辨率图像的连续超分辨率模型。

该模型是在包含10亿(图像、文本)对的自定义高质量 LAION-A 数据集上训练的,LAION-A 数据集是 LAION-5B 数据集英文部分的一个子集。DeepFloyd 的自定义过滤器用于删除带水印、NSFW 和其他不当内容。

最初,DeepFloyd IF 是根据研究许可发布的。研究人员旨在鼓励跨领域(如艺术、设计、讲故事、虚拟现实和可访问性)开发新颖的应用程序。为了激发潜在的研究,他们提出了几个技术、学术和伦理研究问题。

技术研究问题包括:

优化 IF 模型以增强性能、可扩展性和效率。

通过改进抽样、指导或微调模型来提高输出质量。

将用于修改稳定扩散输出的技术应用到 DeepFloyd IF。

学术研究问题包括:

探索预训练对迁移学习的作用。

增强模型对图像生成的控制。

通过集成多种模式,将模型的功能扩展到文本到图像合成之外。

评估模型的可解释性,以提高对生成图像视觉特征的理解。

伦理研究问题包括:

识别和减轻 DeepFloyd IF 中的偏差。

评估模型对社交媒体和内容生成的影响。

开发利用该模型的有效假图像检测器。

DeepFloyd 's hugs Face空间网址: https://huggingface.co/DeepFloyd。

DeepFloyd IF 网址:https://deepfloyd.ai/deepfloyd-if

DeepFloyd IF GitHub项目地址:https://github.com/deep-floyd/IF

0000
评论列表
共(0)条