谷歌发布 MediaPipe Diffusion 插件 推理效率比ControlNet高20倍以上
谷歌最近发布了 MediaPipe Diffusion 插件,这是一个可在移动设备上运行的低成本可控文本到图像生成解决方案。该插件可以提取条件图像中的特征,并将其注入到扩散模型的编码器中,以实现对图像生成过程的控制。
与 ControlNet 相比,MediaPipe Diffusion 插件的推理效率提高了20 倍,在 v100上运行甚至可以提速高达100倍。
扩散模型是一种在文本到图像生成中取得成功的方法,它通过迭代去噪的方式逐步生成目标概念的图像。通过将文本提示作为条件,可以大大提高图像生成的效果。然而,仅凭文本来控制图像的生成往往难以获得理想的结果,例如具体的人物姿势和面部表情。
为了解决这个问题,谷歌研究人员设计了 MediaPipe Diffusion 插件,该插件是一个轻量级的模型,具有600万参数,使用 MobileNetv2中的深度卷积和反向瓶颈实现快速推理。
插件可以连接到预训练的文本到图像生成模型中,并提供额外的条件信号,从而实现对图像生成过程的控制。
研究人员还开发了基于扩散的文本到图像生成模型与不同插件的应用示例,包括人脸标记、全身标记、深度图和 Canny 边缘。通过调节插件的参数,可以生成不同风格和特征的图像。
对于 face landmark 插件,研究人员进行了定量评估,并与 ControlNet 进行了比较。实验结果表明,插件生成的样本质量比基础模型好得多,而推理时间只增加了2.6%。此外,在移动设备上的性能测试中,MediaPipe 插件表现出明显的优势。
总之,谷歌的 MediaPipe Diffusion 插件是一个可在移动设备上运行的图像生成控制模型,可以提高推理效率并实现对图像生成过程的精确控制。这将为移动端应用提供更灵活和定制化的生成式 AI 能力。
特斯拉Cybertruck交付在即 多次现身进行碰撞测试
站长之家(ChinaZ.com)9月14日消息:随着特斯拉电动皮卡Cybertruck计划在今年晚些时候正式交付使用,最近有报道显示,Cybertruck在交付前仍在进行碰撞测试,以全面评估其安全性能。据报道,9月11日有两辆Cybertruck被发现出现在特斯拉在得克萨斯州的工厂碰撞测试区域,现场工作人员正在为碰撞测试作准备。今年以来,Cybertruck已多次进行碰撞测试。站长网2023-09-14 21:35:580000粉丝暴涨!微信“问一问”,2023必做的流量风口
最近很多朋友应该都注意到,在微信的「搜一搜」页面上,新增了一个名为「问一问」的板块。有人将其比作微信版本的知乎,但我觉得它比知乎更强大。背靠微信这个庞大的生态体系,完全不愁用户和流量,只要做得好机会不可估量。如今微信「搜一搜」月活已超8亿,「问一问」的出现将极大地促进微信生态内的公私域联动,也为千万创作者提供了撬动公域的利器。那么「问一问」到底是什么?该怎么做?为什么必须要做「问一问」?站长网2023-08-09 16:00:380000免费开源AI视频工具VideoCrafter:输入文本轻松生成高质量视频
🔍划重点:1.VideoCrafter是一款新的开源视频创建和编辑套件,利用扩散模型从文本描述生成照片和视频逼真的输出。2.无需视频编辑或动画经验,任何人都可以轻松制作专业品质的视频。3.VideoCrafter提供用户友好的界面,是免费的开源项目,可以用于制作解释性动画、产品展示、教育视频、宣传片等。站长网2023-10-25 00:13:2200019清华系AI视频工具,用10天给《毒液》官方做了个片子
国产AI视频大模型牵手国际顶尖IP!最近票房单日冠军漫威《毒液3》的水墨风宣传片,竟然是用AI做的。就是下面索尼电影官方发布这一条30秒的时长,搞了个水墨版毒液大咖秀——时而幻化成鱼,时而变做岸上奔腾的毒液马;一会儿又飞檐走壁,变换为展翅飞鹤,在古楼最高处俯瞰城市。脸上还露出毒液标志性的邪魅一笑。站长网2024-10-25 18:05:1600002023年金融科技行业的十大人工智能趋势
2023年金融科技行业正在经历变革性的人工智能趋势。先进的技术,如机器学习、机器人流程自动化和自然语言处理,正在重新塑造金融服务。金融科技行业的人工智能趋势包括机器学习、机器人流程自动化和自然语言处理。提升客户体验、诈骗检测和更智能的投资推动行业的发展演进。0001