英伟达发布新型 Perfusion AI 图像生成器:只需 100KB 模型大小 就可创造性地描绘物体
在人工智能艺术创作工具的快速发展中,英伟达的研究人员推出了一种创新的文本到图像个性化方法,名为 Perfusion。但与竞争对手相比,它并不是一个价值百万美元的超级大型模型。Perfusion 的大小只有 100KB,训练时间只需 4 分钟,能够在表达个性化概念时保持其特性,同时具有显著的创造性和灵活性。
图片来自Nvidia
Perfusion 是由英伟达与以色列的特拉维夫大学合作撰写的研究论文中介绍的。尽管其大小较小,但在特定版本的效率方面,它能够胜过像 Stability AI的 Stable Diffusion v1.5. 新发布的 Stable Diffusion XL (SDXL)和 MidJourney 等领先的 AI 艺术生成器。
Perfusion 中的主要新想法被称为「Key-Locking」。它通过在图像生成过程中将用户想要添加的新概念(如具体的猫或椅子)与更一般的类别相连接。例如,将这只猫与更广泛的「猫科动物」的概念联系起来。
这有助于避免过拟合,即模型过于狭窄地针对训练样例进行调整。过拟合使得 AI 难以生成新的创造性版本。
通过将新猫与猫科动物的一般概念联系起来,模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的「猫性」,使它看起来像预期的猫的模样,而不是任何随机的猫科动物。
因此,简单来说,Key-Locking 能够让 AI 灵活地表达个性化的概念,同时保持其核心身份。就像给艺术家以下指导:「画一下我的猫汤姆,它正在睡觉、玩耍毛线和嗅花。」
为什么英伟达认为「少即是多」
Perfusion 还可以将多个个性化的概念合并到单个图像中,实现自然互动,而不像现有工具那样独立学习概念。用户可以通过文本提示引导图像创作过程,合并像具体的猫和椅子这样的概念。
Perfusion 提供了一个显著的功能,允许用户在推理期间通过调整一个只有 100KB 大小的模型控制视觉保真度(图像)和文本对齐度(提示)之间的平衡。这种能力使用户能够轻松探索 Pareto 前沿(文本相似度与图像相似度之间的权衡),并选择符合其特定需求的最优平衡,而无需重新训练。值得注意的是,对模型进行训练需要一些技巧。
过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出,并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是是重要的定制组件。
其他 AI 图像生成器也有让用户微调输出的方法,但它们体积庞大。以 Stable Diffusion 中常用的微调方法 LoRA 为例,它可以增加几十兆字节甚至超过 1GB 的应用程序大小。另一种方法是文本反转嵌入,它体积较小,但准确度较低。目前最准确的技术之一 Dreambooth 训练的模型体积达 2GB 以上。
相比之下,英伟达表示,与前面提到的领先人工智能技术相比,Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比,超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。
这项研究与英伟达日益专注于人工智能的发展方向保持一致。随着英伟达的 GPU 继续主导 AI 模型的训练,该公司的股价今年已经上涨了 230%。在 Anthropic、谷歌、微软和百度等公司投入数十亿美元进行生成 AI 的过程中,英伟达的创新 Perfusion 模型可能会给它带来优势。
目前,英伟达只是发表了研究论文,并承诺很快发布代码。
英伟达 Perfusion 模型:
https://research.nvidia.com/labs/par/Perfusion/
报告称目前为止苹果15英寸 MacBook Air弱于预期
DigiTimes援引苹果供应链内部消息人士的报道称,最初客户对新款15英寸MacBookAir的需求“弱于预期”。该报告称,7月份15英寸MacBookAir的销量比预期少了50%。最初预计出货量是在笔记本电脑市场普遍低迷的情况下进行的。由于这种“糟糕的开端”,报告称一些苹果供应商已要求减少15英寸MacBookAir的出货量。站长网2023-07-27 16:14:450000Meta AI开源T2V模型AVID 可修复视频改变纹理
MetaAI最近开源了AVID,这是一项具有先进修复和扩展能力的T2V模型。AVID不仅支持通过文本编辑视频,还可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。项目地址:https://zhang-zx.github.io/AVID/这个开源项目是为了解决文本引导的视频修复所面临的三个主要挑战:时间一致性、不同保真度级别的支持以及处理可变的视频长度。站长网2023-12-12 10:48:430001AMD第三季度业绩强势增长353% 第四季度营收展望未达预期
北京时间11月1日消息,美国芯片制造商高级微设备公司(AMD)今天公布了2023财年第三季度财报。报告显示,AMD第三季度净利润同比大增353%,达到2.99亿美元,但给出的第四季度营收展望低于华尔街分析师的预期。0000IAC警告监管机构:生成式人工智能可能毁掉互联网
划重点:-IAC,全球最大的互联网控股公司之一,已向美国版权局提交评论,警告称,除非政府保护受版权保护的材料免受生成式人工智能的使用,否则“高质量原创内容的创作和发布将逐渐消失”。-IAC担心,如果生成式人工智能公司不被迫支付发布商受版权保护内容的费用,它们的算法所训练的和它们的机器人所复制的内容,将导致互联网变得“难以辨认”,用户将不信任它。站长网2023-11-02 16:33:230000我在国庆靠“替人买单”赚钱,8天流水十几万
国庆假期结束,有人在这个假期追求诗和远方,有人抓紧闲暇搞钱。“不想出去看人山人海,有什么副业可以搞吗?”中秋国庆双节到来之前,爱搞钱的年轻人就提问了。站长网2023-10-08 17:17:580000