正交微调解锁文本创建逼真图像新能力 实现对生成图像的精确控制
划重点:
- 研究人员引入正交微调(OFT)方法,极大地增强了对基于文本的图像生成模型的控制能力。
- OFT 使用正交变换方法,保持神经元之间的关系结构,确保模型的语义生成能力得到保留。
- OFT 方法在生成质量和效率方面表现出色,具有广泛的实际应用和影响。
一直以来,基于文本的图像生成技术一直备受关注,因为它能够根据文字描述创建逼真的图像。这些模型利用复杂的算法解读文本并将其转化为视觉内容,模拟了人类独有的创造力和理解能力。这项技术在各个领域都具有巨大的潜力,从平面设计到虚拟现实,都可以创建与文本输入相符的复杂图像。
在这一领域中的一个关键挑战是微调这些模型以实现对生成图像的精确控制。模型在保持高保真度图像生成和对文本提示的细腻解释之间往往难以平衡。确保这些模型能够准确遵循文本指令并保持其创造性完整性是至关重要的,特别是在需要特定图像特征或风格的应用中。目前,引导这些模型通常涉及调整网络中的神经元权重,可以通过小学习率更新或通过重新参数化神经元权重来实现。然而,这些技术往往需要在保留模型预训练生成性能方面进行改进。
来自包括智能系统 MPI、剑桥大学、图宾根大学、蒙特利尔大学、博世人工智能中心和阿兰图灵研究所在内的多个机构的研究人员介绍了正交微调(OFT)方法。
该方法显著提高了对基于文本的图像生成模型的控制能力。OFT 采用正交变换方法,着重于保持超球能量(神经元之间关系结构的度量)。这种方法确保了模型的语义生成能力得到保留,从而实现更准确和稳定的基于文本提示的图像生成。
OFT 方法可以从以下四个方向进行全面审视,以对所提出的方法有一个整体的了解:
1. 采用 OFT 进行简化微调:OFT 使用正交变换来适应大规模基于文本的图像生成模型,而不改变其超球能量。这种方法保持了模型的语义生成能力。
2. 提高生成质量和效率:OFT 应用于两个具体任务:根据几张参考图片和文本提示生成特定主题的图片,以及可控生成,即模型接收额外的控制信号。
3. 实际应用和广泛影响:OFT 可以用于艺术家和平面设计师根据文字描述创建复杂的图像和艺术作品。这可以大大加快创作过程,让艺术家在较短时间内探索更多的创意。此外,OFT 还可以为广告和营销提供基于特定文本输入的独特定制视觉内容,快速原型化广告概念和不同主题或营销信息的视觉内容。
4. 开放挑战和未来方向:解决 OFT 在可扩展性方面的局限性,特别是与 Cayley 参数化涉及的矩阵求逆操作的计算效率相关的问题。研究如何结合多个 OFT 微调任务产生的正交矩阵,同时保留所有下游任务的知识。改进参数效率的方法,以更少的偏见和更有效的方式来提高参数效率,仍然是一个重大挑战。
正交微调方法极大地推动了基于 AI 的图像生成。通过有效解决微调文本到图像模型的挑战,OFT 提供了一种更可控、稳定和高效的方法。这一突破为需要准确从文本生成图像的应用开辟了新的可能性,标志着 AI 创造力和视觉表现的新时代的到来。
论文:https://openreview.net/forum?id=K30wTdIIYc
项目网址:https://top.aibase.com/tool/orthogonal-finetuning-oft-
清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN
SALMONN是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型(LLM),能够处理语音、音频事件和音乐输入。站长网2023-08-22 18:50:310000用AI“复活”8年前的老产品,拿下570万美元融资、20万预注册用户
「Daze」是一款可发送“自由式消息”的通讯应用,以Z世代为主要客群。区别于iMessage和WhatsApp等应用统一使用蓝色或者绿色气泡规整呈现对话的方式,「Daze」让对话“漂浮”在屏幕上,并允许用户使用不同的字体、贴图、动画,甚至是小游戏来进一步丰富对话。以上新颖的交互设计,很快让「Daze」“未发先红”。站长网2024-11-06 14:45:070000马毅团队新研究:微调多模态大模型会灾难性遗忘
要点:1.马毅团队提出了EMT框架,评估微调后的多模态大模型(MLLM)的灾难性遗忘。2.实验表明,微调MLLM在提升微调数据集性能的同时,也导致其他数据集性能下降。3.微调过程中,MLLM会产生与微调数据集相关的幻觉文本,忽略原始问题。站长网2023-09-28 10:29:530000美国普通家庭1.7万多倍!ChatGPT日耗电超50万度
近期有媒体披露,OpenAI旗下的热门聊天机器人ChatGPT的每日电力消耗惊人,可能超过50万千瓦时。这一数字相比美国普通家庭日均29千瓦时的用电量,显得尤为突出,高达近1.7万倍之多。站长网2024-03-11 09:07:470000B站全年AIGC相关视频播放量90亿
近日,哔哩哔哩公布了“五大科学焦点榜单”,主要涉及站内有关“AIGC、室温超导、脑机接口、黑洞、可控核聚变”等关键词的视频数据情况。哔哩哔哩表示,在科学和知识品类方面,相关视频占哔哩哔哩用户搜索排名第2位,相关内容播放量占站内41%,00后正在成为科学内容消费主力,其中全年“AIGC”相关视频播放量90亿,播放时长达140亿分钟。站长网2023-10-31 15:14:440000