英伟达发布新型 Perfusion AI 图像生成器:只需 100KB 模型大小 就可创造性地描绘物体
在人工智能艺术创作工具的快速发展中,英伟达的研究人员推出了一种创新的文本到图像个性化方法,名为 Perfusion。但与竞争对手相比,它并不是一个价值百万美元的超级大型模型。Perfusion 的大小只有 100KB,训练时间只需 4 分钟,能够在表达个性化概念时保持其特性,同时具有显著的创造性和灵活性。
图片来自Nvidia
Perfusion 是由英伟达与以色列的特拉维夫大学合作撰写的研究论文中介绍的。尽管其大小较小,但在特定版本的效率方面,它能够胜过像 Stability AI的 Stable Diffusion v1.5. 新发布的 Stable Diffusion XL (SDXL)和 MidJourney 等领先的 AI 艺术生成器。
Perfusion 中的主要新想法被称为「Key-Locking」。它通过在图像生成过程中将用户想要添加的新概念(如具体的猫或椅子)与更一般的类别相连接。例如,将这只猫与更广泛的「猫科动物」的概念联系起来。
这有助于避免过拟合,即模型过于狭窄地针对训练样例进行调整。过拟合使得 AI 难以生成新的创造性版本。
通过将新猫与猫科动物的一般概念联系起来,模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的「猫性」,使它看起来像预期的猫的模样,而不是任何随机的猫科动物。
因此,简单来说,Key-Locking 能够让 AI 灵活地表达个性化的概念,同时保持其核心身份。就像给艺术家以下指导:「画一下我的猫汤姆,它正在睡觉、玩耍毛线和嗅花。」
为什么英伟达认为「少即是多」
Perfusion 还可以将多个个性化的概念合并到单个图像中,实现自然互动,而不像现有工具那样独立学习概念。用户可以通过文本提示引导图像创作过程,合并像具体的猫和椅子这样的概念。
Perfusion 提供了一个显著的功能,允许用户在推理期间通过调整一个只有 100KB 大小的模型控制视觉保真度(图像)和文本对齐度(提示)之间的平衡。这种能力使用户能够轻松探索 Pareto 前沿(文本相似度与图像相似度之间的权衡),并选择符合其特定需求的最优平衡,而无需重新训练。值得注意的是,对模型进行训练需要一些技巧。
过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出,并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是是重要的定制组件。
其他 AI 图像生成器也有让用户微调输出的方法,但它们体积庞大。以 Stable Diffusion 中常用的微调方法 LoRA 为例,它可以增加几十兆字节甚至超过 1GB 的应用程序大小。另一种方法是文本反转嵌入,它体积较小,但准确度较低。目前最准确的技术之一 Dreambooth 训练的模型体积达 2GB 以上。
相比之下,英伟达表示,与前面提到的领先人工智能技术相比,Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比,超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。
这项研究与英伟达日益专注于人工智能的发展方向保持一致。随着英伟达的 GPU 继续主导 AI 模型的训练,该公司的股价今年已经上涨了 230%。在 Anthropic、谷歌、微软和百度等公司投入数十亿美元进行生成 AI 的过程中,英伟达的创新 Perfusion 模型可能会给它带来优势。
目前,英伟达只是发表了研究论文,并承诺很快发布代码。
英伟达 Perfusion 模型:
https://research.nvidia.com/labs/par/Perfusion/
2024春节档:没有大片,只有悬念
“破1亿,创近三年春节档新片预售票房最快破亿速度”。这是预售第一天开启后,灯塔数据发布的2024春节档战报。随着龙年除夕进入倒计时,电影春节档的战争也拉开帷幕,刘德华、张艺谋陆续走进“与辉同行”直播间,开始直播买票。成绩也还不错,由刘德华主演的《红毯先生》一小时卖出了60万张票。张艺谋执导的《第二十条》开播20分钟后24万张电影优惠劵直接抢空,一场下来总计卖出82万张。0001微软Windows电脑大规模蓝屏我们不受影响 专家:国产操作系统、杀毒软件必须掌握在自己手里
快科技7月21日消息,7月19日,Windows系统在全球大范围内出现故障,包括美国、日本、英国、墨西哥、印度、新西兰、澳大利亚、印度等多地区均受到影响。据悉,多国的航空、铁路、银行、企业、媒体、酒店等多领域因此次Windows系统崩溃陷入瘫痪。0000阿里云大模型「通义千问」开始邀请测试
阿里云公众号今天中午发文宣布,开始邀请测试大模型「通义千问」。目前该模型主要邀请企业用户进行体验测试,用户可以通过官方网站(tongyi.aliyun.com)申请参与体验。符合条件的用户将有机会试用该模型。点击进入通义通义千问官网,可以看到下方有「申请体验」和「使用邀请码」两个按钮,用户可使用邀请码登录或通过阿里云APP/支付宝/钉钉账号注册提交体验申请。站长网2023-04-12 11:58:100000特斯拉发布2023第二季度财报 净利润为27.03亿美元
7月19日美股收盘后,特斯拉发布了2023年第二季度财报。根据财报数据,该公司在今年第二季度的收入达到了249.27亿美元,同比增加了47%,超过了市场预测的245.1亿美元;净收益(GAAP)为27.03亿美元,同比上涨了20%,也高于市场预期的23.9亿美元;自由现金流为10.1亿美元,低于市场预期的21.8亿美元。站长网2023-07-20 11:07:560000独家|微信蚂蚁押注AI应用商店,巨头争抢千亿“苹果税”
Tech星球独家获悉,微信的云开发团队正在打造一款名为“云开发AI智能体”的应用平台,这是一个多平台AI智能体开发框架,用于企业和小程序提供专属的智能体平台。通过该平台,用户可以实现0代码开发,打造专属个性化智能助手产品。图注:微信云开发AI智能体平台。站长网2024-08-16 14:10:110000