英伟达推文生图模型 ConsiStory:免训练、可生成连贯图片
站长网2024-02-21 09:11:311阅
划重点:
⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。
⭐️ ConsiStory 通过主体驱动自注意力(SDSA)和特征注入等核心模块,在不需要任何训练或调优的情况下实现图像主体的一致性。
⭐️ 该模型还包含锚图像和可重用主体功能,提供主题一致性的参考,避免了传统训练方法中针对每个主题进行训练的难题。
英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型(目前尚未开源),旨在解决目前文生图模型在生成内容一致性方面的挑战。
ConsiStory 采用了一种全新的方法,通过主体驱动自注意力(SDSA)和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。
SDSA 模块是 ConsiStory 的核心之一,扩大了扩散模型中自注意力层,允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息,不同图像中的主体可以相互 "对齐",保持一致性。而特征注入则建立在扩散特征空间的密集对应图上,确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐",进一步增强了主体间的一致性。
此外,ConsiStory 还提供了锚图像和可重用主体功能,锚图像作为主题信息的参考,引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活,避免了传统方法中针对每个主题进行训练的难题,实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型,为 AI 图像生成领域带来了新的可能性。
论文地址:https://arxiv.org/abs/2402.03286
0001
评论列表
共(0)条相关推荐
让“郭德纲”说英语相声 HeyGen的视频生意不好做
听郭德纲的新相声了吗?飙英语的那种。最近,一段“郭德纲用英语说相声”的视频在社交平台传疯了。视频中,老郭用自己声音说的英语不仅发音准确,嘴型自然,语法错误都少。实际上,这段视频又是AI技术参与的二创作品,这个“没有翻译腔的真正翻译”作品被网友怒赞,不少人觉得,即使是真人配音也无法达到这样传神的效果。站长网2023-11-09 14:16:000000免费开放!Lumalabs AI推出Dream Machine文生视频模型
6月13日,3D建模平台LumaAI推出了一款名为DreamMachine的新型文生视频模型,并向所有用户免费开放。DreamMachine不仅支持文本生成视频,还能利用图片作为引导来创造视频内容。其生成的视频在质量、动作一致性、色彩、光影、饱和度和运镜等方面与OpenAI的Sora相媲美。站长网2024-06-13 11:20:230000日本航天局与铁路公司合作,利用人工智能预测轨道上的故障
划重点:-🛰️日本航天局(JAXA)与西日本旅客铁路公司(JR-West)合作,将后者的人工智能(AI)故障预测技术应用于卫星操作。-🚂这项合作旨在利用数据来预测工作卫星的故障,并解决它们,就像铁路设备维护一样。-🌐卫星运营商SKYPerfectJSATCorporation也参与其中,旨在通过改进AI模型的开发来检测轨道上的异常情况。站长网2024-05-24 17:57:280001IBM 宣布将以 23.3 亿美元收购 Software AG 的云计算和人工智能资产
国际商业机器公司(IBM)当地时间周一宣布,将以21.3亿欧元(约合23.3亿美元)收购SoftwareAG的企业集成平台,以增强其人工智能和云计算能力。0000帮中腰部达人提升带货力,快手电商做了新计划
“我拿自己做了亲身实验,真的是按头安利”“今年秋冬特别流行美拉德风,穿皮衣准没错”“原价529,今天直播间到手价399,上链接!”9月9日,@酥酥完成了一场重要的直播带货,这是她从服饰赛道转型到”美妆服饰“复合赛道的第一战,为此提前准备了半个多月。最终,这位30万粉丝的服饰垂类主播,首次跨界美妆赛道,单场直播GMV突破40万元,其中首次售卖的美白丸单品GMV超过10万元。站长网2023-09-26 17:51:420000