Google AI 推出 MediaPipe Diffusion 插件:可在设备上实现可控的文本到图像生成
Diffusion 模型近年来在文本到图像生成方面得到广泛应用,并取得了显著的成功,从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而,在难以用文字明确定义的条件下,有效的生成管理仍然是一个挑战。
由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成,并进行用户控制。在这项研究中,谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作,提出了低成本的可编程文本到图像创建解决方案,可以集成到现有的 Diffusion 模型及其 LoRA 变体中。
Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一次迭代都以受噪声污染的图像开始,并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而,物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。
Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本(Stable Diffusion1.5 版本的 860M 参数)和广泛使用的去噪 Diffusion 隐式模型(DDIM)反演方法来从输入图像中推导出初始噪声输入。
通过自注意力从复制的 Diffusion 中提取空间特征,并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本,并通过一个带有零初始化参数的卷积层连接到编码条件信息,然后传递给解码器层。不幸的是,这导致了模型的显著增大,Stable Diffusion1.5 版本的参数约为 4.5 亿个,相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络(77M 参数)下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入,其结果被用于所有后续的 Diffusion 周期。然而,这种适配器样式不适用于移动设备。
MediaPipe Diffusion 插件是谷歌开发的一个独立网络,旨在使条件生成变得高效、灵活和可扩展。
作为一种便携式的设备上文本到图像创建范式,MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像,并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。
当与文本到图像 Diffusion 模型结合使用时,插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数,使其成为一个相对简单的模型。
MediaPipe:https://developers.google.com/mediapipe
用短剧带货,闷声发大财
机不可失。火爆的短剧,被电商平台盯上在主播带货逐渐降温的情况下,短剧带货成为了香饽饽。电商直播发展到现在,达人主播的带货优势见底,难以寻求更大的增量。最明显的表现是今年的618,虽然达人主播的带货量依旧居带货榜榜首,但相比去年来说,带货销量和成交额都出现了不同幅度的下降。站长网2024-07-01 21:27:110000DeepMind新人工智能可直接向人类学习任务
谷歌子公司DeepMind推出了一款突破性的人工智能代理系统,能够直接从人类教师那里学习任务。该系统通过观察和模仿行动来模拟人类任务执行,展示了一种被称为“文化传递”的新型模仿学习形式。在《自然》杂志上发表的研究详细介绍了文化传递的过程,使得人工智能模型能够在不依赖预先收集的人类数据的情况下学习。这种类似观看视频教程的方法不仅使人工智能代理能够复制人类行为,还能随着时间的推移记忆观察到的行为。站长网2023-12-05 10:08:1000002999元起!一加Ace 2 Pro发布:骁龙8 Gen2加持
一加Ace2Pro正式发布,售价方面分别为2999元、3399元和3999元。该机搭载高通骁龙8Gen2移动平台,最高内存配置为24GB,是目前市场上内存最大的骁龙8Gen2手机。为了充分发挥大内存的性能,一加自研了内存基因重组技术,从底层实现了安卓内存的重构,并借助瞬时带宽技术和异步内存技术等实现更出色的性能表现。站长网2023-08-16 20:35:000000阿里云发布“通义听悟”AI助手 接入通义千问大模型能力
在今天的阿里云峰会·粤港澳大湾区分场上,阿里云智能宣布通义听悟AI助手将于6月1日正式公测。通义听悟是国内首个向公众开放公测的大模型应用产品,公测期间,用户可领取100小时以上的听悟免费转写时长。据阿里云介绍,通义听悟是一款工作学习AI助手,它接入了通义千问大模型的理解与摘要能力。站长网2023-06-01 16:39:410000象寄AI全面升级:支持短视频翻译、一键精修图片和视频素材
象寄AI全面升级,首发支持多国语言的AI短视频翻译功能,包括中英日韩欧美东南亚等。此外,还提供便捷的图片/短视频精修工具,并支持API调用,帮助用户轻松打造精品出海内容素材。体验地址:https://www.xiangjifanyi.com/home/该工具具备以下特点:视频翻译:能够去除视频中的硬字幕,替换为翻译语种字幕,并支持多种热门背景音乐和人声旁白合成。站长网2023-09-13 14:40:560000