英伟达推文生图模型 ConsiStory:免训练、可生成连贯图片
站长网2024-02-21 09:11:311阅
划重点:
⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。
⭐️ ConsiStory 通过主体驱动自注意力(SDSA)和特征注入等核心模块,在不需要任何训练或调优的情况下实现图像主体的一致性。
⭐️ 该模型还包含锚图像和可重用主体功能,提供主题一致性的参考,避免了传统训练方法中针对每个主题进行训练的难题。
英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型(目前尚未开源),旨在解决目前文生图模型在生成内容一致性方面的挑战。
ConsiStory 采用了一种全新的方法,通过主体驱动自注意力(SDSA)和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。

SDSA 模块是 ConsiStory 的核心之一,扩大了扩散模型中自注意力层,允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息,不同图像中的主体可以相互 "对齐",保持一致性。而特征注入则建立在扩散特征空间的密集对应图上,确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐",进一步增强了主体间的一致性。

此外,ConsiStory 还提供了锚图像和可重用主体功能,锚图像作为主题信息的参考,引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活,避免了传统方法中针对每个主题进行训练的难题,实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型,为 AI 图像生成领域带来了新的可能性。
论文地址:https://arxiv.org/abs/2402.03286
0001
评论列表
共(0)条相关推荐
谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
划重点:1.💻GoogleResearch团队推出VideoPoet,一款大型语言模型,旨在解决视频生成领域的挑战。2.🌈VideoPoet支持多种视频生成任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。3.🚀与传统扩散模型不同,VideoPoet将多个视频生成功能融合在一个语言模型中,提供更高的集成度和学习能力。站长网2023-12-20 10:39:020000美图与三星深度合作 提升Galaxy S24系列AI图像能力
1月25日,三星电子举办GalaxyS24系列中国新品发布会,与美图公司深化合作,共同推出全新的AI图像编辑体验。美图公司自研的AI视觉大模型MiracleVision(奇想智能)将为GalaxyS24系列用户提供云端解决方案,提升相册的生成式编辑功能。此前,双方已有多项端侧合作功能,如“AI图生图”、“海报拼图”和“一键大片”等。站长网2024-01-26 09:50:000000CounterPoint:预计PC制造商将在2024年发布新的AI驱动的PC
全球个人电脑(PC)市场在经历连续八个季度的下滑后,终于在2023年第四季度迎来一丝曙光。虽然出货量同比仍旧下降了0.2%,但这标志着跌幅减缓,为未来复苏带来了希望。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-01-19 16:32:380000比Flux更强大的文生图模型来了!秘诀是“集百家之长”
打造更强大文生图模型新思路有——面对Flux、stablediffusion、Omost等爆火模型,有人开始主打“集各家所长”。具体来说,清北、牛津、普林斯顿等机构的研究者提出了⼀个全新文生图框架IterComp。它能提取不同模型在各自领域的优势,同时不引入额外的复杂指令或增加计算开销。论文一经发布,即在𝕏(前推特)获得AI论文领域大V转发,吸引大量关注。0000