正交微调解锁文本创建逼真图像新能力 实现对生成图像的精确控制
划重点:
- 研究人员引入正交微调(OFT)方法,极大地增强了对基于文本的图像生成模型的控制能力。
- OFT 使用正交变换方法,保持神经元之间的关系结构,确保模型的语义生成能力得到保留。
- OFT 方法在生成质量和效率方面表现出色,具有广泛的实际应用和影响。
一直以来,基于文本的图像生成技术一直备受关注,因为它能够根据文字描述创建逼真的图像。这些模型利用复杂的算法解读文本并将其转化为视觉内容,模拟了人类独有的创造力和理解能力。这项技术在各个领域都具有巨大的潜力,从平面设计到虚拟现实,都可以创建与文本输入相符的复杂图像。

在这一领域中的一个关键挑战是微调这些模型以实现对生成图像的精确控制。模型在保持高保真度图像生成和对文本提示的细腻解释之间往往难以平衡。确保这些模型能够准确遵循文本指令并保持其创造性完整性是至关重要的,特别是在需要特定图像特征或风格的应用中。目前,引导这些模型通常涉及调整网络中的神经元权重,可以通过小学习率更新或通过重新参数化神经元权重来实现。然而,这些技术往往需要在保留模型预训练生成性能方面进行改进。
来自包括智能系统 MPI、剑桥大学、图宾根大学、蒙特利尔大学、博世人工智能中心和阿兰图灵研究所在内的多个机构的研究人员介绍了正交微调(OFT)方法。
该方法显著提高了对基于文本的图像生成模型的控制能力。OFT 采用正交变换方法,着重于保持超球能量(神经元之间关系结构的度量)。这种方法确保了模型的语义生成能力得到保留,从而实现更准确和稳定的基于文本提示的图像生成。

OFT 方法可以从以下四个方向进行全面审视,以对所提出的方法有一个整体的了解:
1. 采用 OFT 进行简化微调:OFT 使用正交变换来适应大规模基于文本的图像生成模型,而不改变其超球能量。这种方法保持了模型的语义生成能力。
2. 提高生成质量和效率:OFT 应用于两个具体任务:根据几张参考图片和文本提示生成特定主题的图片,以及可控生成,即模型接收额外的控制信号。
3. 实际应用和广泛影响:OFT 可以用于艺术家和平面设计师根据文字描述创建复杂的图像和艺术作品。这可以大大加快创作过程,让艺术家在较短时间内探索更多的创意。此外,OFT 还可以为广告和营销提供基于特定文本输入的独特定制视觉内容,快速原型化广告概念和不同主题或营销信息的视觉内容。
4. 开放挑战和未来方向:解决 OFT 在可扩展性方面的局限性,特别是与 Cayley 参数化涉及的矩阵求逆操作的计算效率相关的问题。研究如何结合多个 OFT 微调任务产生的正交矩阵,同时保留所有下游任务的知识。改进参数效率的方法,以更少的偏见和更有效的方式来提高参数效率,仍然是一个重大挑战。

正交微调方法极大地推动了基于 AI 的图像生成。通过有效解决微调文本到图像模型的挑战,OFT 提供了一种更可控、稳定和高效的方法。这一突破为需要准确从文本生成图像的应用开辟了新的可能性,标志着 AI 创造力和视觉表现的新时代的到来。
论文:https://openreview.net/forum?id=K30wTdIIYc
项目网址:https://top.aibase.com/tool/orthogonal-finetuning-oft-
大厂亲儿子下线、创业公司盈利,社交啊社交
在执行《从46款AI教育产品,看全球八大市场用户学习偏好》选题时,我们对八个国家的下载和营收总榜Top100以及教育分类榜进行了深度研究,并且以“教育”“语言学习”“学语言”等为关键词在应用商店进行了补充检索,最终发现了25款AI语言学习产品。站长网2024-07-25 15:46:170001英伟达一夜暴跌3700亿 今年股价翻了三倍
英伟达周二大跌,全天最低下跌5.66%,收盘报425.54美元,跌幅达4.72%。市值蒸发了521.17亿美元,折合人民币超过3700亿元。当日交易额达248.6亿美元,在美股中排名第一。在AI的浪潮下,英伟达股价今年已经涨了三倍多。据CNBC的吉姆·克莱默称,这家市值1万亿美元的芯片巨头最近公布了一些关于其人工智能(AI)计划的重要消息,克莱默认为这将促进该股票的表现。站长网2023-08-10 09:48:190000苹果在线服务又出Bug:用户被迫反复输入Apple ID
快科技4月16日消息,近一段时间,苹果在线服务已经出现了多次Bug,而现在,又一个新的问题出现了。近日,有多名用户在推特反映,称自己的设备不断的要求用户输入AppleID密码,即便是输入了正确密码,也会提示登陆失败,要求再次输入。此外,在一些特殊情况下,甚至可能出现AppleID被注销,无法再次登陆的情况。0001网红主播吴川偷逃税 拒不配合:被追缴并罚款1359万!演员袁冰妍297万
9月16日,国家税务总局公布4起涉税案件,涉及两名网络主播,其中一人偷逃税还不配合。一、广西壮族自治区税务局第三稽查局依法对网络主播吴川偷逃税案件进行处理前期,广西壮族自治区税务部门通过分析发现,网络主播吴川涉嫌偷逃税款,经提示提醒、督促整改、约谈警示后,吴川仍拒不配合自查整改及补缴税款,遂依法对其开展了税务检查。站长网2023-09-16 18:15:010000支付宝继续卷AI应用:推出增强版AI视觉搜索“探一下”
AI已成为各大科技巨头角逐的关键赛道,而蚂蚁集团在AI领域的密集布局,愈发引人注目。2024年12月30日,支付宝宣布推出新一代AI视觉搜索产品“探一下”,基于自研的多模态大模型技术,可“用AI之眼探索万物”,提供更快速、有用、趣味的生成式搜索服务。0000