注册

首页站长资讯微软开源创新LoRA组合方法，增强文生图复杂细节控制

20308

微软开源创新LoRA组合方法，增强文生图复杂细节控制

站长网2024-03-25 19:12:170阅

LoRA（低秩适应）的高效能力已在文生图领域获得广泛应用，可以准确渲染、融合图像中的特定元素，例如，不同字符、特殊服装或样式背景等，同时可对图像进行压缩、去噪、补全进行优化操作。

但想在模型中应用多个LoRA构建更复杂的图像时，会出现图像失真、难以控制细节的难题。因此，微软和伊利诺伊大学的研究人员开发了Multi-LoRA Composition（多重 LoRA 组合方法）。

该方法包括LoRA Switch和LoRA Composite两种，无需微调就能集成多个LoRA一起使用，并且能保持每个LoRA 的权重完整性。

研究人员使用GPT-4V对该方法进行了综合评测，结果显示，LoRA Switch 在图像合成质量方面表现出卓越的性能，而 LoRA Composite 在图像质量生成方面表现出色，并且随着LoRA数量的增长效果将更明显。

论文地址:https://arxiv.org/abs/2402.16843

Github地址:https://github.com/maszhongming/Multi-LoRA-Composition

项目地址:https://maszhongming.github.io/Multi-LoRA-Composition/

LoRA Switch

LoRA Switch的技术原理是在每一个消噪步骤中，选择性地激活一个LoRA模型，同时在多个LoRA模型之间轮流切换，确保每个元素都能得到充分的渲染。

LoRA Switch主要由3大块组成:1）扩散模型，用于生成图像的基模型，并执行顺序消噪的过程;2)多个LoRA模型，每个LoRA模型专门渲染图像中的一个元素，例如，人物、服装、背景、风格等;

3）切换功能，用户控制在消噪步骤中，按需激活每一个LoRA模型。

LoRA Switch的底层运行机制包括:首先设置LoRA模型的激活顺序，如先后激活人物LoRA、服装LoRA、风格LoRA等。

然后从第一个LoRA模型开始生成图像，每隔N个消噪步骤就切换激活下一个LoRA。当切换完所有LoRA后，再从头开始新的一轮切换，直到图像最终生成。

例如，在虚拟试穿场景中，LoRA Switch会在连续的去噪步骤中轮换角色LoRA和服装LoRA，从而确保每个元素都以精确和清晰的方式呈现。

LoRA Switch可以确保每个元素都得到充分渲染，避免了直接融合LoRA权重矩阵时出现的不稳定问题，也可以灵活调整LoRA之间的切换速率，适应不同的场景。

LoRA Composite

LoRA Composite的技术原理是在每个消噪步骤计算每个LoRA的无条件和有条件分数估计。然后对这些分数进行平均，作为图像生成过程的指导。这样可以极大平衡不同LoRA的作用，实现更协调的成像合成。

LoRA Composite主要包括2大块:1）扩散模型，用于执行去噪流程;2)多个LoRA模型:对扩散模型的参数进行适应，每个LoRA负责渲染一个元素。

LoRA Composite在运行时，首先计算每个LoRA模型的无条件和条件分数估计，然后对所有LoRA模型的分数进行平均，得到一个综合分数。以这个综合分数作为指导，驱动扩散模型执行顺序消噪过程并逐步生成图像。

与LoRA Switch不同的是，LoRA Composite综合了所有LoRA，并直接影响扩散过程，而不是操纵权重矩阵。

LoRA Composite可以集成任意数量的LoRA，并突破了目前研究中通常只合并两个LoRA的技术限制。

评估数据集

研究人员还开发了首个面向LoRA组合图像生成的专业测试基准ComposLoRA。该基准包含6大类、22个LoRA模型，480个组合样本，可以全面评价不同的LoRA组合。

实验结果表明，在保证图像质量的同时，新提出的两种组合方法相比目前主流的LoRA融合技术，可以实现更协调、逼真的多元素图像生成效果。尤其是使用数量较多的LoRA组合时，生成高质量的效果更加明显。

微软开源创新LoRA组合方法增强文生图复杂细节控制

0000

评论列表

共(0)条

相关推荐

站长资讯
AI视野：英伟达GH200在MLPerf 3.1中惊艳亮相；作家集体起诉OpenAI侵犯版权；蚂蚁集团发布“蚁天鉴”大模型安全一体化解决方案
>>>>>大模型动态<<<<<开源大模型训练框架Megatron-LLaMA来了32卡训练可加速176%9月12日，淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA，以提高大语言模型训练性能，降低训练成本。要点:
站长网2023-09-12 15:40:19
0000
站长资讯
宾夕法尼亚大学工程师研发可用光波训练AI的芯片
**划重点:**1.💡UPenn工程师成功研发新型芯片，利用光波进行训练人工智能所需的数学计算。2.🚀这一创新芯片有望极大加速计算机处理速度，同时减少能源消耗，可能提升在线隐私保护。3.🧠新芯片首次将纳米材料操控与光学数学计算相结合，为发展支撑人工智能工具的神经网络提供了重要平台。
站长网2024-02-20 11:19:36
0000
站长资讯
小米15系列或将首发高通骁龙8 Gen4
高通骁龙峰会2024将于10月21日举行，届时将正式发布新一代移动平台——骁龙8Gen4。据数码博主“数码闲聊站”透露，这款备受期待的旗舰芯片的首发权已花落小米，小米15系列将毫无悬念地成为首批搭载骁龙8Gen4的智能手机。
站长网2024-06-21 21:30:43
0000
站长资讯
喵星人与汪星人的“逆袭”，那些出圈萌宠能够赚到钱吗？
如今，年轻人似乎患上了“宠物依赖症”，各大平台的宠物内容赛道快速发展，逐渐成为最受年轻人关注的垂类之一。随着年轻人养宠需求的升级，从宠物健康到时尚领域，宠物营销也成为了多领域品牌渗透年轻人圈层的热门方式，反哺萌宠内容的快速发展。然而，随着萌宠博主的增加，萌宠内容陷入了一定的同质化之中，萌宠博主出圈的难度愈发加大，变现也面临巨大的挑战。
站长网2023-09-04 17:08:02
0001
站长资讯
蔚来李斌：阿尔卑斯品牌二季度正式发布四季度交付
蔚来汽车在今日公布了其2023年的财务报告，并随后举行了一场电话会议。CEO兼董事长李斌在会议上，按照财报电话会的传统，详细阐述了蔚来的未来规划。
站长网2024-03-06 10:22:19
0002

热点

Mythik获1500万美元种子轮融资，要成为“东方迪士尼”
2025-05-26 15:15:05
手机满意度跌至 10 年来的水平，AI人工智能只是部分原因
2025-05-26 15:13:49
OpenAI 进军硬件领域，将收购 Jony Ive 的 AI 创业公司
2025-05-26 15:13:15
蜜雪冰城回应网友倒卖柠檬水赚差价，网友：这违法吗？
2025-05-26 15:13:06
苹果开放 AI 模型……计划于下个月在 WWDC 上发布
2025-05-26 15:12:02
马斯克：特斯拉将于 6 月底在奥斯汀启动 Robotaxi 试点
2025-05-26 15:11:44
谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验
2025-05-26 15:10:44
本田大幅削减电动汽车投资，将重点转向混合动力汽车及柔性制造
2025-05-26 14:29:29
骆歆 Rita 领衔！《剑侠情缘?零》明星主播天团助阵公测
2025-05-26 14:28:30
谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”
2025-05-26 14:25:26

关注

Mythik获1500万美元种子轮融资，要成为“东方迪士尼”
2025-05-26 15:15:05
手机满意度跌至 10 年来的水平，AI人工智能只是部分原因
2025-05-26 15:13:49
OpenAI 进军硬件领域，将收购 Jony Ive 的 AI 创业公司
2025-05-26 15:13:15
蜜雪冰城回应网友倒卖柠檬水赚差价，网友：这违法吗？
2025-05-26 15:13:06
苹果开放 AI 模型……计划于下个月在 WWDC 上发布
2025-05-26 15:12:02
马斯克：特斯拉将于 6 月底在奥斯汀启动 Robotaxi 试点
2025-05-26 15:11:44
谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验
2025-05-26 15:10:44
本田大幅削减电动汽车投资，将重点转向混合动力汽车及柔性制造
2025-05-26 14:29:29
骆歆 Rita 领衔！《剑侠情缘?零》明星主播天团助阵公测
2025-05-26 14:28:30
谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”
2025-05-26 14:25:26

推荐