谷歌推新型生成式AI模型IGN 单步即可生成逼真图像
要点:
1. UC伯克利和谷歌提出的幂等生成网络(IGN)是一种新型生成式AI模型,能够通过单步生成逼真图像,不需要多步迭代。
2. IGN与传统的生成对抗网络(GAN)和扩散模型不同,它是一个自对抗模型,同时完成生成和判别,并尝试在单个步骤中将输入映射到目标数据分布。
3. 通过实验证明,虽然IGN目前生成结果无法与最先进的模型竞争,但在推理方面更加有效,可以输出一致性更高的结果,具有潜在的医学图像修复应用。
生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络(IGN),只需单步即可生图。当前,生成式AI模型,比如GAN、扩散模型或一致性模型,通过将输入映射到对应目标数据分布的输出,来生成图像。通常情况下,这种模型需要学习很多真实的图片,然后才能尽量保证生成图片的真实特征。
最近,来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络(IGN)。IGNs可以从各种各样的输入,比如随机噪声、简单的图形等,通过单步生成逼真的图像,并且不需要多步迭代。这一模型旨在成为一个「全局映射器」(global projector),可以把任何输入数据映射到目标数据分布。
论文地址:https://arxiv.org/abs/2311.01462
有趣的是,《宋飞正传》中一个高效的场景竟成为研究人员的灵感来源。这个场景很好地总结了「幂等运算符」(idempotent operator)这一概念,是指在运算过程中,对同一个输入重复进行运算,得到的结果总是一样的。
IGN与GAN、扩散模型有两点重要的不同之处:与GAN不同的是,IGN无需单独的生成器和判别器,它是一个「自对抗」的模型,同时完成生成和判别。与执行增量步骤的扩散模型不同,IGN尝试在单个步中将输入映射到数据分布。位于同一空间,即它们的实例具有相同的维度。
研究人员承认,现阶段,IGN的生成结果无法与最先进的模型相竞争。在实验中,使用的较小的模型和较低分辨率的数据集,并在探索中主要关注简化方法。当然了,基础生成建模技术,如GAN、扩散模型,也是花了相当长的时间才达到成熟、规模化的性能。研究人员在MNIST(灰度手写数字数据集)和 CelebA(人脸图像数据集)上评估IGN,分别使用28×28和64×64的图像分辨率。
研究人员采用了简单的自动编码器架构,其中编码器是来自DCGAN的简单五层鉴别器主干,解码器是生成器。训练和网络超参数如表1所示。图4显示了应用模型一次和连续两次后两个数据集的定性结果。如图所示,应用IGN 一次 (f (z)) 会产生相干生成结果。然而,可能会出现伪影,例如MNIST数字中的孔洞,或者面部图像中头顶和头发的扭曲像素。
再次应用 f (f (f (z))) 可以纠正这些问题,填充孔洞,或减少面部噪声斑块周围的总变化。表明,当图像接近学习流形时,再次应用f会导致最小的变化,因为图像被认为是分布的。作者通过执行操作证明IGN具有一致的潜在空间,与GAN所示的类似,图6显示了潜在空间算法。
研究人员还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」,来验证IGN「全局映射」的潜力。研究人员通过对噪声图像x n 进行去噪、对灰度图像原始图像x,这些逆任务是不适定的。IGN能够创建符合原始图像结构的自然映射。如图所示,连续应用f可以提高图像质量(例如,它消除了投影草图中的黑暗和烟雾伪影)。通过以上结果可以看出,IGN在推理方面更加有效,在训练后只需单步即可生成结果。它们还可以输出更一致的结果,这可能推广到更多的应用中,比如医学图像修复。
实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万
生成式模型进入「实时」时代?文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中,我们发现它们通常运行缓慢,导致我们要等一段时间才能拿到生成结果。但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。图源:https://twitter.com/javilopen/status/1724398666889224590站长网2023-11-15 21:18:160001中国小女孩向马斯克报BUG成功 回应:将修复
站长之家(ChinaZ.com)7月2日消息:昨日,年仅7岁的中国小女孩茉莉(Molly),以她纯真的声音和勇敢的行动,向全球科技巨头特斯拉的创始人埃隆·马斯克发起了一场“隔空对话”。她不仅用英语清晰地描述了自己在特斯拉汽车中遇到的一个小“烦恼”,还勇敢地请求马斯克能够帮忙解决这一技术问题。站长网2024-07-02 15:31:260000阿里云等发布智海-三乐教育垂直大模型 基于教材、论文等语料进行微调
阿里云宣布,浙江大学联合高等教育出版社、阿里云等发布基于通义千问7B(70亿参数)模型训练的智海-三乐教育垂直大模型,该模型已在阿里云灵积平台(DashScope)上线服务,开发者仅需一行代码即可使用。站长网2023-08-23 12:45:290000小冰公司首批网红明星克隆人已提前上线
两周前,小冰公司宣布在中国及日本市场启动“克隆人计划”。小冰公司表示,目前,首批网红明星克隆人已提前上线,其中包括此前饱受争议的“半藏森林”。目前,后台报名克隆人的网红明星全网粉丝总数已超过5亿,但出于安全考虑,首批克隆人仍限制在300人。经过测试验证,预计年底前逐步放开到更大规模。小冰公司计划每周四解锁新的克隆人。站长网2023-06-02 00:11:240000超过苹果三星和大众 华为研发资金投入为全球第四
快科技9月11日消息,有机构根据欧盟工业研发投资记分牌2023”的数据,制作了一张全球企业在研发投入强度方面的排行榜。榜单中统计了全球研发资金投入前十的企业,上榜的均为全球知名企业,而其中只有一家中国企业华为”。榜单中的十家企业里,美国企业数量最多,达到了六家,其它四家企业分别来自中国、韩国、德国和瑞士。站长网2023-09-11 20:29:050000