终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源
【新智元导读】生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络(IGN),只需单步即可生图。
已经红遍半边天的扩散模型,将被淘汰了?
当前,生成式AI模型,比如GAN、扩散模型或一致性模型,通过将输入映射到对应目标数据分布的输出,来生成图像。
通常情况下,这种模型需要学习很多真实的图片,然后才能尽量保证生成图片的真实特征。
最近,来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络(IGN)。

论文地址:https://arxiv.org/abs/2311.01462
IGNs可以从各种各样的输入,比如随机噪声、简单的图形等,通过单步生成逼真的图像,并且不需要多步迭代。
这一模型旨在成为一个「全局映射器」(global projector),可以把任何输入数据映射到目标数据分布。
简言之,通用图像生成模型未来一定是这样的。
有趣的是,《宋飞正传》中一个高效的场景竟成为作者的灵感来源。

这个场景很好地总结了「幂等运算符」(idempotent operator)这一概念,是指在运算过程中,对同一个输入重复进行运算,得到的结果总是一样的。
即:

正如Jerry Seinfeld幽默地指出的那样,一些现实生活中的行为也可以被认为是幂等的。
幂等生成网络
IGN与GAN、扩散模型有两点重要的不同之处:
- 与GAN不同的是,IGN无需单独的生成器和判别器,它是一个「自对抗」的模型,同时完成生成和判别。
- 与执行增量步骤的扩散模型不同,IGN尝试在单个步中将输入映射到数据分布。
那么,幂等生成模型(IGN)怎么来的?


IGN训练例程PyTorch代码的一部分示例。

实验结果
得到IGN后,效果如何呢?
作者承认,现阶段,IGN的生成结果无法与最先进的模型相竞争。
在实验中,使用的较小的模型和较低分辨率的数据集,并在探索中主要关注简化方法。
当然了,基础生成建模技术,如GAN、扩散模型,也是花了相当长的时间才达到成熟、规模化的性能。
实验设置
研究人员在MNIST(灰度手写数字数据集)和 CelebA(人脸图像数据集)上评估IGN,分别使用28×28和64×64的图像分辨率。
作者采用了简单的自动编码器架构,其中编码器是来自DCGAN的简单五层鉴别器主干,解码器是生成器。训练和网络超参数如表1所示。

生成结果
图4显示了应用模型一次和连续两次后两个数据集的定性结果。
如图所示,应用IGN 一次 (f (z)) 会产生相干生成结果。然而,可能会出现伪影,例如MNIST数字中的孔洞,或者面部图像中头顶和头发的扭曲像素。
再次应用 f (f (f (z))) 可以纠正这些问题,填充孔洞,或减少面部噪声斑块周围的总变化。

图7显示了附加结果以及应用f三次的结果。

比较

和

表明,当图像接近学习流形时,再次应用f会导致最小的变化,因为图像被认为是分布的。
潜在空间操纵
作者通过执行操作证明IGN具有一致的潜在空间,与GAN所示的类似,图6显示了潜在空间算法。

分布外映射
作者还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」,来验证IGN「全局映射」的潜力。
研究人员通过对噪声图像x n 进行去噪、对灰度图像

进行着色,以及将草图

转换为图5中的真实图像来证明这一点。
原始图像x,这些逆任务是不适定的。IGN能够创建符合原始图像结构的自然映射。
如图所示,连续应用f可以提高图像质量(例如,它消除了投影草图中的黑暗和烟雾伪影)。

谷歌下一步?
通过以上结果可以看出,IGN在推理方面更加有效,在训练后只需单步即可生成结果。
它们还可以输出更一致的结果,这可能推广到更多的应用中,比如医学图像修复。
论文作者表示:
我们认为这项工作是迈向模型的第一步,该模型学习将任意输入映射到目标分布,这是生成建模的新范式。
接下来,研究团队计划用更多的数据来扩大IGN的规模,希望挖掘新的生成式AI模型的全部潜力。
最新研究的代码,未来将在GitHub上公开。
参考资料:
https://assafshocher.github.io/IGN/
https://the-decoder.com/inspired-by-seinfeld-google-unveils-new-ai-model-for-image-generation/
电商平台用ChatGPT为用户提供购物辅助服务成趋势
在OpenAI的ChatGPT爆火之后,越来越多电商平台尝试使用该工具来提供购物辅助,包括记忆对话内容和话语能力,提供更加个性化和人性化的体验。在用例方面,包括日本二手市场Mercari推出购物辅助工具MerchatAI,帮助推荐产品。德国电商巨头Zalando推出类似的ChatGPT的工具,帮助消费者在提出时装问题或疑问后寻找相关物品。站长网2023-04-27 15:18:330000松下控股宣布其聊天型人工智能 ConnectAI 扩展至其旗下海外公司
松下控股(HD)日前宣布,海外集团公司员工现在也可以使用旗下的PanasonicConnect公司开发的聊天型人工智能(AI)。但对象地区不包括要求严格管理个人数据的欧洲。专注于企业对企业解决方案的PanasonicConnect将人工智能助手命名为ConnectAI,并鼓励将其用于日常任务,从起草电子邮件到收集信息再到编写计算机代码。站长网2023-07-24 14:03:390000网盘用上大模型后「真香」!压箱底黑照3秒找到,亲朋好友都不淡定了
想不到,有了AI加持,我也有在我司鲨疯的一天!同事的压箱底黑照,被我3秒钟就翻了出来,光速做成表情包先发制人。喏,只需要在网盘的搜索框里输入“大笑的男人”,立马就能检索到相关图像。然后选中想要“攻击”的对象、点击编辑,就能一键加文字变表情包。整个过程相当丝滑,我图都做完了,同事那还在找图呢(doge)。而且这个搜索还能直接理解“什么是表情包”,可以一键找到之前做好的图。站长网2023-07-18 08:52:180000京东:618将把AI数字人直播技术免费开放给商家使用
在2024年京东618商家生态伙伴大会中,京东集团CEO许冉宣布了今年京东618的重要战略部署。她明确表示,京东将集中最大力度的资源,全力投入到流量生态、AI技术和服务能力这三个核心领域,力求在即将到来的大促活动中取得卓越成绩。站长网2024-04-18 20:47:460001特斯拉中国:FSD自动驾驶国内落地正在推进中
快科技11月23日消息,一波三折,特斯拉FSD完全自动驾驶这回真的要在国内落地了。据报道,特斯拉中国在接受采访时就FSD进入中国一事进行了回应,称目前确实正在推进中。”数日前,我国四部门联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》,《通知》中正式对L3/L4自动驾驶的准入规范进行了具体要求,并完善了相关规则,同时,也开启了对首批企业的遴选工作。站长网2023-11-23 20:12:360000