谷歌发布 MediaPipe Diffusion 插件 推理效率比ControlNet高20倍以上
谷歌最近发布了 MediaPipe Diffusion 插件,这是一个可在移动设备上运行的低成本可控文本到图像生成解决方案。该插件可以提取条件图像中的特征,并将其注入到扩散模型的编码器中,以实现对图像生成过程的控制。
与 ControlNet 相比,MediaPipe Diffusion 插件的推理效率提高了20 倍,在 v100上运行甚至可以提速高达100倍。
扩散模型是一种在文本到图像生成中取得成功的方法,它通过迭代去噪的方式逐步生成目标概念的图像。通过将文本提示作为条件,可以大大提高图像生成的效果。然而,仅凭文本来控制图像的生成往往难以获得理想的结果,例如具体的人物姿势和面部表情。

为了解决这个问题,谷歌研究人员设计了 MediaPipe Diffusion 插件,该插件是一个轻量级的模型,具有600万参数,使用 MobileNetv2中的深度卷积和反向瓶颈实现快速推理。
插件可以连接到预训练的文本到图像生成模型中,并提供额外的条件信号,从而实现对图像生成过程的控制。

研究人员还开发了基于扩散的文本到图像生成模型与不同插件的应用示例,包括人脸标记、全身标记、深度图和 Canny 边缘。通过调节插件的参数,可以生成不同风格和特征的图像。
对于 face landmark 插件,研究人员进行了定量评估,并与 ControlNet 进行了比较。实验结果表明,插件生成的样本质量比基础模型好得多,而推理时间只增加了2.6%。此外,在移动设备上的性能测试中,MediaPipe 插件表现出明显的优势。
总之,谷歌的 MediaPipe Diffusion 插件是一个可在移动设备上运行的图像生成控制模型,可以提高推理效率并实现对图像生成过程的精确控制。这将为移动端应用提供更灵活和定制化的生成式 AI 能力。
独立开发变现周刊(第104期):开发月收入1000美金的Kindle小工具
1、HeadshotAI:生成专业头像的开源项目HeadshotAI是完全免费且开源的项目,可以在几分钟内生成专业的AI头像。用到的技术栈有:🚀LeapAI-用于AI模型训练🚀LeapAI-生成头像▲Next.js-用于应用程序和登陆页面🔋Supabase-DB和Auth的📩Resend-用于发送邮件站长网2023-09-15 09:02:460000三足鼎立、群雄环伺,本地生活“乱战门”开启
近十年来,本地生活赛道的狼烟从未熄灭,从美团全方位布局“吃喝住行娱”,到口碑等平台深耕细分领域,再到抖快等短视频平台入局,如今的本地生活赛道陷入了激烈的竞争与内卷之中。各大内容平台纷纷入局本地化营销,希望从服务类平台手中抢走“一杯羹”,它们开始将本地内容的入口置于平台的显著位置,通过布局本地内容抢占市场先机。而服务类平台不断走向“视频化”,开始弥补短板,提高内容吸引力。站长网2023-05-05 14:07:230000雷军最新确认!小米SU7总交付量已超15万辆:仅用时10个月
快科技1月25日消息,今日,雷军在直播中透露,小米SU7的总交付量已经超过15万辆。根据官方2024年年底公布的数据,小米SU7上市以来累计交付已突破13万辆,提前完成年度目标。要知道,小米SU7在2024年4月3日才开始交付,2024年全年实际上交付时间只有9个月的时间,到现在也不过10个月,相当月单月平均交付量在1.5万辆以上。0000研究预测:到2027年,生成式AI支出将达到260亿美元
划重点:⭐生成式人工智能(GenAI)支出预测:2027年达到260亿美元。⭐GenAI正在革新运营,自动化诸如欺诈检测和文件创建等任务。⭐行业应用案例:金融服务、软件和信息服务、政府以及零售领域。站长网2024-04-19 12:00:09000020B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
【新智元导读】国产模型开源纪录,又被刷新了!上海AI实验室等机构开源的InternLM-20B,竟然能和Llama2-70B打个平手?就在刚刚,国内开源模型参数量纪录,又被刷新了!9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学,正式开源了200亿参数的InternLM-20B模型。站长网2023-09-22 09:10:520000