Google AI 推出 MediaPipe Diffusion 插件:可在设备上实现可控的文本到图像生成
Diffusion 模型近年来在文本到图像生成方面得到广泛应用,并取得了显著的成功,从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而,在难以用文字明确定义的条件下,有效的生成管理仍然是一个挑战。
由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成,并进行用户控制。在这项研究中,谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作,提出了低成本的可编程文本到图像创建解决方案,可以集成到现有的 Diffusion 模型及其 LoRA 变体中。
Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一次迭代都以受噪声污染的图像开始,并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而,物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。
Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本(Stable Diffusion1.5 版本的 860M 参数)和广泛使用的去噪 Diffusion 隐式模型(DDIM)反演方法来从输入图像中推导出初始噪声输入。
通过自注意力从复制的 Diffusion 中提取空间特征,并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本,并通过一个带有零初始化参数的卷积层连接到编码条件信息,然后传递给解码器层。不幸的是,这导致了模型的显著增大,Stable Diffusion1.5 版本的参数约为 4.5 亿个,相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络(77M 参数)下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入,其结果被用于所有后续的 Diffusion 周期。然而,这种适配器样式不适用于移动设备。
MediaPipe Diffusion 插件是谷歌开发的一个独立网络,旨在使条件生成变得高效、灵活和可扩展。
作为一种便携式的设备上文本到图像创建范式,MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像,并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。
当与文本到图像 Diffusion 模型结合使用时,插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数,使其成为一个相对简单的模型。
MediaPipe:https://developers.google.com/mediapipe
马斯克到访特斯拉上海超级工厂 陶琳深夜发声:激动人心 收获满满
快科技6月1日消息,时隔三年再次访华的特斯拉创始人、CEO马斯克此前结束了在北京的工作,昨天晚上就乘坐私人飞机到了上海,深夜就去上海的超级工厂,会见了国内工厂的高管及员工。6月1日凌晨0时28分,特斯拉对外事务副总裁陶琳深夜通过微博发声,发布了两张照片,是马斯克与员工的大合影,配文表示感谢所有的支持!收获满满的一天!”,微博显示的地点也是上海超级工厂。站长网2023-06-01 14:54:570001每周AI大事件 | 必应聊天将支持第三方浏览器、钉钉斜杠“/”启动邀请测试
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]小冰首批网红明星AI克隆人提前上线站长网2023-06-03 09:19:430000董明珠称一切都是孟羽童的选择 李国庆奉劝董明珠给年轻人留余地
12月18日晚,董明珠在直播中再次谈及孟羽童,对于外界关于用错了人、眼力有问题的质疑,她表示,“不叫用错人,是她自己的选择吧,人生的道路是自己选。人生价值观是她自己定的,你选择做什么样的人是你自己决定的。现在很难说五年后是什么样。”这一话题迅速冲上热搜。0000普华永道:阿联酋在生成式人工智能领域引领全球
划重点:-阿联酋在生成式人工智能领域的发展受到政府的大力支持,吸引了全球关注。-阿联酋强调生成式人工智能的潜力,特别是在提高工作效率和转型方面。-阿联酋已经发布了重要的生成式人工智能模型,表明其意图成为该领域的领导者。站长网2023-10-13 16:08:360000