英伟达推文生图模型 ConsiStory:免训练、可生成连贯图片
站长网2024-02-21 09:11:311阅
划重点:
⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。
⭐️ ConsiStory 通过主体驱动自注意力(SDSA)和特征注入等核心模块,在不需要任何训练或调优的情况下实现图像主体的一致性。
⭐️ 该模型还包含锚图像和可重用主体功能,提供主题一致性的参考,避免了传统训练方法中针对每个主题进行训练的难题。
英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型(目前尚未开源),旨在解决目前文生图模型在生成内容一致性方面的挑战。
ConsiStory 采用了一种全新的方法,通过主体驱动自注意力(SDSA)和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。
SDSA 模块是 ConsiStory 的核心之一,扩大了扩散模型中自注意力层,允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息,不同图像中的主体可以相互 "对齐",保持一致性。而特征注入则建立在扩散特征空间的密集对应图上,确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐",进一步增强了主体间的一致性。
此外,ConsiStory 还提供了锚图像和可重用主体功能,锚图像作为主题信息的参考,引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活,避免了传统方法中针对每个主题进行训练的难题,实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型,为 AI 图像生成领域带来了新的可能性。
论文地址:https://arxiv.org/abs/2402.03286
0001
评论列表
共(0)条相关推荐
最高年薪600万!多名前OPPO哲库骨干加盟新公司曝光:研发自动驾驶芯片
快科技7月21日消息,OPPO之前突然解散了哲库让人唏嘘不已,而原来公司的骨干也各奔东西,其中一些骨干也是有了新的去除。据最新消息显示,哲库公司十数名管理层近期加入自动驾驶公司Momenta。有知情人士称,高管们年薪普遍在200万元-600万元区间。此次Momenta如此大手笔吸纳芯片行业人才,与其新的战略布局有关。站长网2023-07-21 22:05:270000小米SU7重磅OTA更新来了!新增无线Apple CarPlay、走哪问哪功能
快科技5月17日消息,今日小米汽车宣布,小米SU7迎来OTA更新,版本号为XiaomiHyperOS1.1.2,现已陆续推送中。此次更新,小米澎湃智能座舱新增无线AppleCarPlay。iPhone用户可以通过无线连接方式使用AppleCarPlay,通过Siri语音助手控制AppleCarPlay界面,操作电话、音乐、导航等功能,并支持在HUD中显示苹果原生地图导航的卡片界面。站长网2024-05-17 15:26:310000Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟
划重点:⭐️Stability.ai发布了音频模型StableAudio2.0,支持生成多种类型音乐,时长达3分钟。⭐️StableAudio2.0采用DiT替换U-Net架构,生成效率显著提升。⭐️用户可免费试用StableAudio2.0生成音乐,支持商业化使用。站长网2024-04-18 14:54:350001帮助企业优化云计算支出的 Cast AI 公司获 3500 万美元投资
站长网2023-11-08 10:37:4900011雷军谈苹果终止10年造车计划:如果是我 绝对不会这么做
快科技3月25日消息,今年2月,苹果被曝终止长达10年的造车计划,消息一出轰动整个造车圈,小米CEO雷军等行业大佬也都发表了自己的看法。今日,《雷军答网友问》第三集发布,在问答中,雷军谈到了苹果都已放弃,小米为什么坚持造车”的问题。雷军表示,这个问题我被问了上百次了,今天我认真回答一下,说实话我第一次听到苹果终止造车,非常非常的震惊。站长网2024-03-25 17:53:170000