NVIDIA 自动引导技术:改善扩散模型中的图像质量和变化
划重点:
- 💡 NVIDIA 提出的自动引导方法在扩散模型中使用较小的模型来引导生成过程,显著改善了图像生成的质量和多样性。
- 💡 通过自动引导方法,研究人员在 ImageNet-512和 ImageNet-64等基准测试中取得了新的记录成绩,实现了对图像生成质量的显著提升。
- 💡 这一创新方法在解决当前方法存在的局限性的同时,为生成高质量和多样化图像提供了更高效、更有效的解决方案。
NVIDIA 近期提出了一种名为自动引导的新方法,旨在改善扩散模型中图像的质量和变化,而不影响其与给定条件(如类标签或文本提示)的一致性。当前的方法通常会以牺牲多样性为代价来提高图像质量,从而限制了它们在医学诊断和自动驾驶等各种现实场景中的适用性。然而,克服这一挑战可以提升人工智能系统在生成逼真且多样化图像方面的性能,推动当前人工智能能力的边界。
目前解决这一挑战的方法主要是使用无分类器引导(CFG),它使用无条件模型来引导有条件模型。虽然 CFG 改善了提示对齐和图像质量,但降低了图像变化。这种权衡发生在图像质量和变化的影响在本质上是纠缠在一起的,难以独立控制它们。此外,CFG 局限于有条件生成,并存在任务差异问题,导致图像构成的偏斜和过于简化的图像。这些限制影响了方法的性能,并限制了它在生成多样化和高质量图像方面的应用。
NVIDIA 的研究人员提出了一种名为自动引导的新方法,它涉及使用主模型的规模较小、训练时间较短的版本来引导生成过程,而不是使用无条件模型。这种方法通过将图像质量与变化解耦,从而更好地控制这些方面,同时保持与主模型相同的条件,确保生成图像的一致性。这种创新方法显著提高了图像生成的质量和变化,在 ImageNet-512和 ImageNet-64等基准测试中刷新了记录,可以应用于有条件和无条件模型。

该方法的核心是训练主模型的规模较小、训练时间较短的引导模型。论文详细介绍了去噪扩散过程,通过反转随机损坏过程生成合成图像。研究人员使用 Fréchet Inception Distance(FID)和 FDDINOv2等指标对模型进行评估,结果显示图像生成质量有了显著提高。例如,在 ImageNet-512中使用小模型(EDM2-S),自动引导将 FID 从2.56提高到1.34,超越了现有方法。
广泛的定量结果证明了自动引导的有效性。该方法在公开可用的网络上实现了64×64和512×512图像分辨率的 FID 记录,表明图像质量有了显著提升,而没有牺牲多样性。评估包括比较不同方法的表格,展示了自动引导在 CFG 和其他基线方法上的优越性能。例如,该方法在 ImageNet 数据集上实现了87.5% 的准确率,超过了先前的最先进水平。
这种改进扩散模型中图像质量的新方法涉及使用模型的规模较小、训练时间较短的引导模型。所提出的自动引导方法克服了像 CFG 这样的现有方法的局限性。这种创新方法在基准测试中取得了最先进的成绩,显著推进了人工智能研究领域,为生成高质量和多样化图像提供了更高效、更有效的解决方案。
支付宝紧急回应,系诈骗!
支付宝发布一则辟谣消息称,近期在朋友圈等处出现的号称通过“朋友圈出租”做推广任务的赚钱活动均为诈骗,支付宝没有“蚂蚁推广”“支付宝推广”等项目,也没有“朋友圈出租”等赚钱活动。站长网2023-05-23 11:32:240000B站举平台之力打造的带货标杆:单场GMV2800万,却被吐槽“割韭菜”
B站UP主开始了转型带货主播的尝试。6月10日,B站知名的头部UP主——宝剑嫂和雨哥,开启了在B站的直播带货首秀。这场由UP主和平台双重发力、数十位头部UP主捧场的首秀,被称为B站史上最“高调”的一场直播带货。据B站披露的官方数据,宝剑嫂和雨哥的这场首秀最终总成交GMV达到2800万元、总成交单量2500单,直播间最高同时在线人数达到55000人。站长网2023-06-18 17:18:530000挑战用利息生活,这届年轻人的平静疯感
最近,各大社交平台开始流行起利息生活挑战,他们有的小有积蓄的在校大学生,有的是余额几万元的裸辞打工人,还有的是存款几十万甚至百万的资深职场人。用利息当日常开支后,他们的生活状态是怎样的?在逃离工作职场后,他们能否提前过上“退休”生活?用利息生活的状态是怎样的?抖音博主@小宇.是一名在校大学生,凭借用利息生活挑战系列视频,他已经收获了3.4万粉丝。站长网2024-08-05 16:37:290000人工智能正被用于解读大量生物的声音和身体暗示背后的含义
对于所有宠物主人来说,如果你对你的猫咪发出的意外的「喵」声、特殊的姿势或其胡须的不寻常抽搐感到困惑,不知道它们想要传达什么,人工智能可能很快就能提供翻译了。科学家们正在转向新技术,解读多种动物的声音和身体线索背后的含义。「我们可以使用AI来教我们很多关于动物想要对我们说的事情,」林肯大学兽医行为医学教授丹尼尔·米尔斯说。站长网2023-11-06 15:44:080000Opera浏览器推出升级版的AI工具Aria
要点:1.Opera浏览器推出升级版的AI工具Aria,使用户能够更轻松地与AI互动,优化查询和创作内容。2.Aria的新工具“Refiner”具备“重用”和“改述”功能,用户可以根据以前的回答元素来改进AI的回应。3.用户还可以使用Aria的“高亮器”功能来标记需要后续处理的元素,以及通过“我的风格”功能训练AI以模仿其写作风格。站长网2023-10-11 16:41:260000