英伟达推文生图模型 ConsiStory:免训练、可生成连贯图片
站长网2024-02-21 09:11:311阅
划重点:
⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。
⭐️ ConsiStory 通过主体驱动自注意力(SDSA)和特征注入等核心模块,在不需要任何训练或调优的情况下实现图像主体的一致性。
⭐️ 该模型还包含锚图像和可重用主体功能,提供主题一致性的参考,避免了传统训练方法中针对每个主题进行训练的难题。
英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型(目前尚未开源),旨在解决目前文生图模型在生成内容一致性方面的挑战。
ConsiStory 采用了一种全新的方法,通过主体驱动自注意力(SDSA)和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。
SDSA 模块是 ConsiStory 的核心之一,扩大了扩散模型中自注意力层,允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息,不同图像中的主体可以相互 "对齐",保持一致性。而特征注入则建立在扩散特征空间的密集对应图上,确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐",进一步增强了主体间的一致性。
此外,ConsiStory 还提供了锚图像和可重用主体功能,锚图像作为主题信息的参考,引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活,避免了传统方法中针对每个主题进行训练的难题,实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型,为 AI 图像生成领域带来了新的可能性。
论文地址:https://arxiv.org/abs/2402.03286
0001
评论列表
共(0)条相关推荐
B站电商,赚钱养UP主
B站找到赚钱的正确方式了?日前,B站发布了一份超预期的财报。财报数据显示,二季度B站营收53.04亿元,同比增长8.05%;净亏损也大幅收窄,从去年同期的亏损19.67亿元减少到了本季度的9.67亿元。2022年,B站首次提出了“生态商业”双驱动的战略,摈弃了过去烧钱换增长的旧模式,在降本增效的同时加快了商业化进程。站长网2023-08-22 15:41:370000亚运会明星运动员入驻背后,百度何以成为达人经营新阵地?
百度正在成为运动员影响力打造的重要阵地。本届亚运会期间,体操选手丘索维金娜(网友称“丘妈”)成为了全场焦点,这位48岁的运动老将在赛场上的优异表现之外,背后“你未痊愈,我不敢老”为儿子治病的故事引起大量关注,无数用户涌向百度搜索了解她传奇人生。站长网2023-10-16 11:45:130000多用途大语言模型SynthIA-7B-v1.3:可用于教学、写作等多领域
文章概要:-SynthIA-7B-v1.3是一个拥有七十亿参数的大型语言模型,经过Orca风格数据训练,能够执行多种任务,包括文本生成、语言翻译、创作原创内容和提供深入的问题回答。-这个模型具有广泛的应用领域,包括文学创作、科研辅助、教育工具和商业流程优化。站长网2023-10-09 09:44:390000今日AI:多模态大模型Claude3发布;Gorq API开放申请;ChatGPT新增朗读功能;Stability AI发布SD3技术报告
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用Claude3正式发布:号称性能超GPT-4,免费使用、支持中文【AiBase提要:】站长网2024-03-05 18:43:340000新型智能眼镜:接入GPT-4 指导约会、面试时怎么说话
最近,斯坦福大学的一组学生研究人员开发了一款智能眼镜,可以显示OpenAI的GPT-4语言模型的输出内容,而这可能会在一次求职面试或约会期间为你提供说话指导。站长网2023-04-18 14:30:170000