Stability AI新文本到图像模型DeepFloyd IF 拥有深度文本理解能力
Stability AI及其多模态 AI 研究实验室 DeepFloyd 宣布发布 DeepFloyd IF 研究版,这是一种尖端的文本到图像级联像素扩散模型,并且可以智能地将文本集成到图像中 该模型最初仅限于非商业、研究许可使用场景,但计划在未来发布开源版本。
DeepFloyd IF 拥有几个显着的特点,包括:
深度文本指提示词理解能力:该模型使用T5-XXL-1.1作为文本编码器,具有多个文本-图像交叉注意力层,确保提示和图像之间更好的对齐。
连贯清晰的文本和生成的图像: DeepFloyd IF 可以生成包含具有不同属性和空间关系的对象的图像。
高度逼真:该模型在 COCO 数据集上取得了令人印象深刻的零样本 FID 分数6.66。
纵横比转换:该模型可以生成非标准纵横比的图像,包括垂直、水平和标准方形纵横比。
零样本迁移能力实现图像到图像的转换:该模型可以修改图像的样式、图案和细节,同时保留其基本形式。
以下是 DeepFloyd IF 创建的一些示例:
DeepFloyd IF 的模块化、级联、像素扩散设计由多个协同交互的神经模块组成。该模型在像素空间中工作,使用不同分辨率的单独训练模型以级联方式处理高分辨率数据。这涉及生成低分辨率样本的基本模型和生成高分辨率图像的连续超分辨率模型。
该模型是在包含10亿(图像、文本)对的自定义高质量 LAION-A 数据集上训练的,LAION-A 数据集是 LAION-5B 数据集英文部分的一个子集。DeepFloyd 的自定义过滤器用于删除带水印、NSFW 和其他不当内容。
最初,DeepFloyd IF 是根据研究许可发布的。研究人员旨在鼓励跨领域(如艺术、设计、讲故事、虚拟现实和可访问性)开发新颖的应用程序。为了激发潜在的研究,他们提出了几个技术、学术和伦理研究问题。
技术研究问题包括:
优化 IF 模型以增强性能、可扩展性和效率。
通过改进抽样、指导或微调模型来提高输出质量。
将用于修改稳定扩散输出的技术应用到 DeepFloyd IF。
学术研究问题包括:
探索预训练对迁移学习的作用。
增强模型对图像生成的控制。
通过集成多种模式,将模型的功能扩展到文本到图像合成之外。
评估模型的可解释性,以提高对生成图像视觉特征的理解。
伦理研究问题包括:
识别和减轻 DeepFloyd IF 中的偏差。
评估模型对社交媒体和内容生成的影响。
开发利用该模型的有效假图像检测器。
DeepFloyd 's hugs Face空间网址: https://huggingface.co/DeepFloyd。
DeepFloyd IF 网址:https://deepfloyd.ai/deepfloyd-if
DeepFloyd IF GitHub项目地址:https://github.com/deep-floyd/IF
vivo X90s发布 搭载天玑9200+售价3999元起
今天下午,vivoX90s正式发布,8GB256GB售价3999元、12GB256GB售价4299元、12GB512GB售价4699元。与上一代X90相比,X90s升级为联发科天玑9200旗舰平台,安兔兔综合成绩突破了165万分。站长网2023-06-27 16:03:590000华为nova11 SE发布 搭载鸿蒙Harmony OS 4售价1999元起
华为nova11SE手机今日发布,售价1999元起,今日11:08开启预售。华为nova11SE配备1亿像素主摄和骁龙680处理器。这款手机采用了星耀环镜头模组设计,拥有多种配色可选,重量仅为186g,轻薄便携。其配备的6.67英寸OLED直屏具有90Hz刷新率、100%P3广色域、10.7亿色等高端显示功能。站长网2023-10-31 11:07:500000OpenAI宣布ChatGPT新增存档聊天记录功能
站长之家(ChinaZ.com)12月21日消息:12月21日,OpenAI在社交平台上发布消息,宣布旗下人工智能对话产品ChatGPT新增存档聊天记录功能。用户可以在“设置”中看到存档的聊天记录。无需删除对话,即可将聊天记录保存起来。目前,这一新功能已在Web和iOS平台上推出,而安卓版本也即将上线该功能。站长网2023-12-21 08:26:090000苹果iOS 17.4更新:播客应用新增转录功能
苹果公司在最新的iOS17.4更新中为Podcasts应用引入了一项令人期待的功能——转录。据官方宣布,这一功能将自动生成播客节目的文字稿,使用户能够更方便地获取内容。站长网2024-01-31 11:05:560000华为Mate 60/Pro推送鸿蒙OS 4.2.0.120系统更新:新增几何/心情派对主题等
快科技4月24日消息,据用户反馈,华为Mate60Pro最新推送了鸿蒙OS4.2.0.120系统更新。新版本更新包体积620MB,主要变化是新增了几何派对/贴纸主题等。更新简介如下:主题新增几何派对主题,选择不同的三角几何形象创造组合成阵列,通过识别人眼注视区域或手势,随之在锁屏界面上方或下方滚动开启派对。站长网2024-04-24 11:40:200000