比Flux更强大的文生图模型来了!秘诀是“集百家之长”
打造更强大文生图模型新思路有——
面对Flux、stable diffusion、Omost等爆火模型,有人开始主打“集各家所长”。
具体来说,清北、牛津、普林斯顿等机构的研究者提出了⼀个全新文生图框架IterComp。
它能提取不同模型在各自领域的优势,同时不引入额外的复杂指令或增加计算开销。
论文一经发布,即在𝕏(前推特)获得AI论文领域大V转发,吸引大量关注。
那么,研究人员具体是如何实现的呢?
全新文生图框架:IterComp
⾃2022年以来,基于diffusion的文生图模型取得了快速发展,尤其在复杂组合生成(complex/compositional generation)任务上取得了显著进展。
例如,今年8月发布的Flux展现出了十分震撼的复杂场景生成能力与美学质量;
RPG通过MLLM的辅助,将复杂的组合生成任务分解为简单子任务;
InstanceDiffusion通过布局控制(layoutbased),实现了与布局分布高度一致的精确图像生成。
然而,这些模型的优势仅限于某些特定的组合生成任务,且存在诸多局限。
基于文本的生成方法(如SDXL、SD3、Flux等),由于其训练数据和框架的优势,在物体与场景的模拟上表现出色,特别在美学质量、属性绑定和非空间关系(non-spatial relationships)方面具有显著优势。
然而,当涉及多个物体,且存在复杂的空间关系时,这类模型往往表现出明显不足。
基于大语言模型(LLM-based)的生成方法,如RPG和Omost,通常需要对LLM进⾏额外训练或设计复杂的提示。
然而,对于LLM处理后的复杂指令,diffusion backbone并不具备精确生成的能力。
基于布局(layourbased)的生成方法,如Instancediffusion和LMD ,虽然提供了精确的控制,但在图像的美学质量和真实性上存在明显下降,并且需要人为设计布局。
因此,一个值得深⼊探讨的问题是:
能否设计出一个强大的模型,在上述多个方面都表现出⾊,同时不引入额外的复杂指令或增加计算开销?
基于此,研究人员提出一个全新的文生图框架:IterComp。
要充分解决这⼀问题,研究面临两大难点:
1、如何提取不同模型在各自领域的优势,并引导模型进行有效学习?
针对该问题,研究人员首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。
研究人员尝试通过扩散模型对齐方法,将base diffusion model与模型库中的组合生成偏好进行对齐。
团队聚焦于compositional generation的三个关键方面:
属性绑定(attribute binding)
空间关系(spatial relationship)
⾮空间关系(non-spatial relationship)
为此,研究人员收集了不同模型在这些方面的偏好数据,并通过人工排序,构建了⼀个面向组合生成的模型偏好数据集(composition-aware model preference dataset)。
针对这三个方面,团队分别训练三个composition-aware reward models,并对base模型进行多奖励反馈优化。
2、组合生成任务很难优化,如何更充分地学习到不同模型的组合偏好?
研究人员在diffusion领域创新地引入迭代式学习框架(iterative feedback learning),实现reward models与base diffusion model之间“左脚踩右脚登天”。
具体来说,在上述第一轮优化后,团队将optimized base diffusion model以及额外选择的其他模型(例如Omost等)添加进model gallery。
对新增模型进行偏好采样,与初始model gallery中的图像按照预训练的reward model构建图像对。
这些图像对被用于进⼀步优化奖励模型,随后继续用更新的奖励模型优化基础扩散模型。
具体的流程如下伪代码所示:
实验
在定性实验中,与其他三类compositional generation方法相比,IterComp取得了显著的组合质量的提升,并且不会引入额外的计算量。
从定量结果中可以看出,IterComp在T2I-CompBench上取得了各方面的领先。
另外,针对图像真实性以及美学质量,IterComp也表现出色。
然而IterComp的应用潜力不限于此,其可以作为强大的backbone显著提升Omost, RPG等模型的生成能力。
更多细节欢迎查阅原论文。
论文地址:
https://arxiv.org/abs/2410.07171
代码地址:
https://github.com/YangLing0818/IterComp
模型地址:
https://huggingface.co/comin/IterComp
Civitai:
https://civitai.com/models/840857
马斯克宣布首例人类大脑芯片植入 称患者恢复良好
埃隆·马斯克的神经科技创业公司Neuralink周日首次在人类大脑中植入了其设备,这位亿万富翁在周一的社交平台X上发帖称,患者“恢复良好”。该公司正在开发一种大脑植入物,旨在帮助患有严重瘫痪的患者仅通过神经信号控制外部技术。根据一篇博客文章,Neuralink在去年秋天开始招募患者参加其首次人体临床试验,此前该公司已经在5月份获得了美国食品和药物管理局的批准,可以进行这项研究。站长网2024-01-30 09:26:490000阿里云大调整 无影升为一级部门!CEO吴泳铭直接管理
阿里云无影事业部晋升一级事业部8月27日,阿里云无影事业部总裁张献涛在媒体沟通会上宣布,无影事业部已从子产品线晋升为阿里云一级事业部,由阿里巴巴集团CEO吴泳铭直接管理。无影电脑定位战略产品张献涛表示,阿里云将无影电脑与AI大模型并列为战略产品。他认为,随着云计算技术发展,终端云计算将成为未来十年重要增长点。算力革命已迫在眉睫。云电脑元年创立无影0000预计生成式AI市场2032年达到2088亿美元,2023-2032年复合年增长率达35.1%
文章概要:1.2022年全球生成式人工智能市场规模为105亿美元,预计到2032年达2088亿美元,复合年增长率为35.1%。2.2022年北美市场收入超过43亿美元,占主导地位。3.未来几年中国、日本、印度等亚太地区增长率将显著提升。站长网2023-10-09 12:07:350001小米小爱同学AI助手通过大模型备案
昨日,小米小爱同学宣布,小爱同学AI助手正式通过国家《生成式人工智能服务管理暂行办法》备案。据悉,2023年8月14日,全面拥抱大模型的小爱同学在雷军年度演讲上首次亮相并开启邀测。大模型全面赋能的小爱同学,拥有更强大的大脑,拥有联系上下文、逻辑推理的能力,可以为你答疑解惑、激发灵感、创造艺术,还能扮演角色,进行更自然的对话。站长网2024-02-01 08:48:040000小米13 Ultra白色16GB +1TB版今日开售
今日10点,小米13Ultra白色16GB1TB版将正式开售,预计售价为7299元。据了解,小米13Ultra搭载第二代骁龙8移动平台,拥有一体化的金属框架机身,整机强度为上一代的4.4倍,还支持IP68防水。正面配备了一块6.7英寸华星光电2K超色准OLED屏幕,峰值亮度高达2600nit,拥有1-120HzLTPO动态刷新率,支持高亮度DC调光和低亮度1920HzPWM调光。站长网2023-05-04 08:35:350000