首页站长资讯英伟达发布新型 Perfusion AI 图像生成器：只需 100KB 模型大小就可创造性地描绘物体

英伟达发布新型 Perfusion AI 图像生成器：只需 100KB 模型大小就可创造性地描绘物体

站长网2023-08-02 15:47:200阅

在人工智能艺术创作工具的快速发展中，英伟达的研究人员推出了一种创新的文本到图像个性化方法，名为 Perfusion。但与竞争对手相比，它并不是一个价值百万美元的超级大型模型。Perfusion 的大小只有 100KB，训练时间只需 4 分钟，能够在表达个性化概念时保持其特性，同时具有显著的创造性和灵活性。

图片来自Nvidia

Perfusion 是由英伟达与以色列的特拉维夫大学合作撰写的研究论文中介绍的。尽管其大小较小，但在特定版本的效率方面，它能够胜过像 Stability AI的 Stable Diffusion v1.5. 新发布的 Stable Diffusion XL (SDXL)和 MidJourney 等领先的 AI 艺术生成器。

Perfusion 中的主要新想法被称为「Key-Locking」。它通过在图像生成过程中将用户想要添加的新概念（如具体的猫或椅子）与更一般的类别相连接。例如，将这只猫与更广泛的「猫科动物」的概念联系起来。

这有助于避免过拟合，即模型过于狭窄地针对训练样例进行调整。过拟合使得 AI 难以生成新的创造性版本。

通过将新猫与猫科动物的一般概念联系起来，模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的「猫性」，使它看起来像预期的猫的模样，而不是任何随机的猫科动物。

因此，简单来说，Key-Locking 能够让 AI 灵活地表达个性化的概念，同时保持其核心身份。就像给艺术家以下指导：「画一下我的猫汤姆，它正在睡觉、玩耍毛线和嗅花。」

为什么英伟达认为「少即是多」

Perfusion 还可以将多个个性化的概念合并到单个图像中，实现自然互动，而不像现有工具那样独立学习概念。用户可以通过文本提示引导图像创作过程，合并像具体的猫和椅子这样的概念。

Perfusion 提供了一个显著的功能，允许用户在推理期间通过调整一个只有 100KB 大小的模型控制视觉保真度（图像）和文本对齐度（提示）之间的平衡。这种能力使用户能够轻松探索 Pareto 前沿（文本相似度与图像相似度之间的权衡），并选择符合其特定需求的最优平衡，而无需重新训练。值得注意的是，对模型进行训练需要一些技巧。

过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出，并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是是重要的定制组件。

其他 AI 图像生成器也有让用户微调输出的方法，但它们体积庞大。以 Stable Diffusion 中常用的微调方法 LoRA 为例，它可以增加几十兆字节甚至超过 1GB 的应用程序大小。另一种方法是文本反转嵌入，它体积较小，但准确度较低。目前最准确的技术之一 Dreambooth 训练的模型体积达 2GB 以上。

相比之下，英伟达表示，与前面提到的领先人工智能技术相比，Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比，超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。

这项研究与英伟达日益专注于人工智能的发展方向保持一致。随着英伟达的 GPU 继续主导 AI 模型的训练，该公司的股价今年已经上涨了 230%。在 Anthropic、谷歌、微软和百度等公司投入数十亿美元进行生成 AI 的过程中，英伟达的创新 Perfusion 模型可能会给它带来优势。

目前，英伟达只是发表了研究论文，并承诺很快发布代码。

英伟达 Perfusion 模型：

https://research.nvidia.com/labs/par/Perfusion/

英伟达发布新型PerfusionAI 图像生成器只需 100KB模型大小就可创造性地描绘物体

0000

评论列表

共(0)条

相关推荐

站长资讯
含AI量爆表，夸克AI搜索有哪些隐藏玩法？
最近，我在更新完夸克后，发现搜索框上方突然冒出来一排“老相识”。AI写作、文档总结、视频总结……这是把我平时常用的AI功能整合到了一起的节奏啊。不仅如此，夸克底部的导航栏还多了一个新Tab，点进去一看，是个名为“CueMe”的智能助手。这名字起得也是挺巧妙的，大概意思是有问题随时可以cue它。
站长网2024-07-13 10:42:01
0000
站长资讯
实时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万、下载超20万
生成式模型进入「实时」时代?文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中，我们发现它们通常运行缓慢，导致我们要等一段时间才能拿到生成结果。但最近，一种名叫「LCM」的模型改变了这种情况，它甚至能做到实时的连续生图。图源:https://twitter.com/javilopen/status/1724398666889224590
站长网2023-11-15 21:18:16
0001
站长资讯
苹果被评为美国最糟糕雇主：员工留存率最低平均1.7年就跳槽
快科技7月29日消息，很多人在找工作时都想进入大厂”，羡慕大公司中的各项福利待遇，以及能够大战拳脚的机会。在科技领域，苹果等公司是绝对当之无愧的龙头，但其中的员工却似乎并没有想象中的幸福，也没那么牢固。最近简历平台Resume.io公布了一份最新的研究报告，苹果公司被评为美国最糟糕的雇主，亚马逊、Meta和特斯拉等大型科技公司也紧随其后。
站长网2023-07-29 10:40:22
0000
站长资讯
马斯克称xAI人工智能将与特斯拉、推特密切合
特斯拉CEO马斯克日前谈及其刚成立的xAI人工智能公司的愿景和计划。他表示，xAI将与推特和特斯拉展开密切合作，旨在“理解宇宙”。据了解，马斯克在推特上进行了长达90分钟的讲话，表示将利用推特的数据来训练人工智能模型，并与特斯拉共同开发人工智能软件。这种合作关系将实现互惠互利，可能加速特斯拉在自动驾驶领域的能力提升。
站长网2023-07-16 05:52:19
0000
小红书2024复盘：63个账号涨粉超百万，女性力量成涨粉密码
这几天，“TikTok难民”的赛博迁徙让小红书热闹非凡。一时间，中国网友们熟悉的小Red书被爆改成了线上英语角、国际动物园，兼老外文艺汇演大舞台。据路透社报道，仅两天时间，就有超过70万新用户加入小红书。（延伸阅读:《小红书的全球“入侵”:TikTok“难民”如何搅动流量江湖?》）
站长网站长资讯2025-01-19 10:37:10
0000