CMU与Google DeepMind研究人员推出AlignProp:微调文本到图像扩散模型的创新方法
卡内基梅隆大学(CMU)和Google DeepMind的研究人员引入了一种突破性的方法,称为"AlignProp"。该方法利用直接反向传播来微调文本到图像扩散模型,解决了将这些模型与所需的奖励功能对齐的挑战。AlignProp提供了一种更高效和有效的方式来优化文本到图像扩散模型,适用于图像生成等领域。
项目地址:https://align-prop.github.io/
概率扩散模型的崛起
概率扩散模型已经成为连续领域生成建模的标准。DALLE,一种文本到图像扩散模型,已经成为该领域的领导者。这些模型以其能够通过在广泛的网络规模数据集上训练来生成图像的能力而闻名。然而,它们的无监督或弱监督性质使得在下游任务中控制其行为,如优化图像质量、图像文本对齐或伦理图像生成成为一项具有挑战性的任务。
微调扩散模型的挑战
最近的尝试使用强化学习技术来微调扩散模型受制于梯度估算中的高方差。AlignProp通过在去噪过程中启用奖励梯度的端到端反向传播,从而对这一问题提供了创新性的解决方案,将扩散模型与所需的奖励功能对齐。
AlignProp的创新特点:
AlignProp引入了一些创新特点,以提高微调扩散模型的效率:
减轻高内存需求: AlignProp通过微调低秩适配器权重模块和实施梯度检查点来减轻通常与现代文本到图像模型的反向传播相关的高内存需求。
性能评估: 研究论文评估了AlignProp在微调扩散模型以实现各种目标的性能,包括图像文本语义对齐、美学、图像可压缩性以及生成图像中对象数量的可控性等目标的性能。AlignProp在较少的训练步骤中实现了更高的奖励,胜过了其他方法。
概念上的简单性: AlignProp因其概念上的简单性而备受赞誉,使其成为基于可区分奖励函数的扩散模型优化的明智选择。
提高采样效率和计算有效性
AlignProp利用从奖励函数获得的梯度来微调扩散模型。这种方法提高了采样效率和计算有效性。实验一致表明,AlignProp在优化一系列奖励函数方面的有效性,甚至对于难以仅通过提示定义的任务也是如此。
未来的研究方向
未来,研究人员可以探索将AlignProp的原则扩展到基于扩散的语言模型,以增强其与人类反馈的一致性。
特斯拉赛博充、第三代家庭充电桩支持哪些三方车辆?官方清单出炉
快科技10月7日消息,特斯拉今天宣布,第三代家庭充电桩和赛博充能给市面上主流三方品牌车型充电,且兼容性达95%以上,智能又便捷。特斯拉还放出了适配清单,可以看出,赛博充兼容三方品牌车型已有30余款,其中比亚迪车型最多,涵盖8款。特斯拉第三代家庭充电桩适配的车型更多,兼容40余款第三方品牌车型。站长网2023-10-07 19:48:170000猎户星空开源OrionStar-Yi-34B-Chat模型 免费可商用
人工智能服务型解决方案提供商“猎户星空”发布了一款基于零一万物开源的Yi-34B模型微调后的chat模型——OrionStar-Yi-34B-Chat。站长网2023-11-23 08:33:190001.AI 域名价值飙升,总价值达450万美元
划重点:-2023年.AI域名交易价值显著上升,.ai是安圭拉的国别顶级域名(ccTLD),但由于“AI”代表人工智能,这一领域的发展,该域名扩展名获得了重要的科技关注。-最新记录显示2023年10月10日,“you.ai”域名以70万美元被收购站长网2023-10-28 07:49:280000媲美Sora?快手文生视频模型可灵开放测试 更懂物理,最长可生成2分钟视频
昨天,快手公司推出了一款名为「可灵」的全新视频生成大模型,该模型采用了与Sora相似的技术路线,并结合了快手自研的多项技术创新。这款模型不仅能够生成长达2分钟、30fps、1080p分辨率的超长视频,支持多种宽高比,还能模拟物理世界的特性,精准建模复杂运动。亮点:1、生成能力强大:支持长达2分钟的30fps高清视频生成,分辨率高达1080p。站长网2024-06-07 15:57:070000最新国产大模型报告出炉:讯飞星火第一 总分1013
快科技8月13日消息,日前,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称《报告》)。《报告》显示,讯飞星火以总分1013分位列本次国产主流大模型测评榜第一,在四大评测维度中的智商指数和工具提效指数两个维度获得第一。站长网2023-08-13 17:44:530000