首页站长资讯文生图prompt不再又臭又长！LLM增强扩散模型，简单句就能生成高质量图像｜ACM MM'23

文生图prompt不再又臭又长！LLM增强扩散模型，简单句就能生成高质量图像｜ACM MM'23

站长网2023-08-28 17:46:130阅

【新智元导读】参数高效的微调方法SUR-adapter，可以增强text-to-image扩散模型理解关键词的能力。

扩散模型已经成为了主流的文本到图像生成模型，可以基于文本提示的引导，生成高质量且内容丰富的图像。

但如果输入的提示过于简洁，现有的模型在语义理解和常识推理方面都存在局限，导致生成的图像质量下降明显。

为了提高模型理解叙述性提示的能力，中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter，即语义理解和推理适配器，可应用于预训练的扩散模型。

论文地址:https://arxiv.org/abs/2305.05189

开源地址:https://github.com/Qrange-group/SUR-adapter

为了实现该目标，研究人员首先收集并标注了一个数据集SURD，包含超过5.7万个语义校正的多模态样本，每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。

然后，研究人员将叙事提示的语义表示与复杂提示对齐，并通过知识蒸馏将大型语言模型（LLM）的知识迁移到SUR适配器，以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。

通过集成多个LLM和预训练扩散模型来进行实验，结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述，并且不会降低图像质量。

该方法可以使文本到图像的扩散模型更容易使用，具有更好的用户体验，可以进一步推进用户友好的文本到图像生成模型的发展，弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。

背景介绍

目前，以Stable diffusion为代表的文生图（text-to-image）预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一，在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。

然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器（text encoder），其语义理解能力关系到扩散模型的生成效果。

本文首先以视觉问答任务（VQA）中常用问题类别的"Counting (计数)"， "Color (颜色)"以及"Action (动作)"构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。

下表给出了所构造的各种prompt的例子。

结果如下表所示，文章揭示了目前文生图预训练扩散模型有严重的语义理解问题，大量问题的图文匹配准确度不足50%，甚至在一些问题下，准确度只有0%。

因此，需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。

方法概述

1. 数据准备

首先从常用的扩散模型在线网站lexica.art，civitai.com，stablediffusionweb中大量获取图片文本对，并清洗筛选获得超过57000张高质量（complex prompt， simple prompt， image）三元组数据，并构成SURD数据集。

如图所示，complex prompt是指生成image时扩散模型所需要的文本提示条件，一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述，是一种符合人类描述的语言格式。

一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像，而complex prompt（对此用户也戏称之为扩散模型的“咒语”）则可以达到令人满意的效果。

2. 大语言模型语义蒸馏

本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征，并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。

其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。

3. 图像质量恢复

由于本文结构在预训练大模型推理过程引入了可学习模块，一定程度破坏了预训练模型的原图生成质量，因此需要将图像生成的质量拉回原预训练模型的生成质量水平。

本文利用SURD数据集中的三元组在训练中引入相应的质量损失函数以恢复图像生成质量，具体地，本文希望simple prompt通过新模块后获得的语义特征可以和complex prompt的语义特征尽可能地对齐。

下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构。

实验结果

本文从语义匹配和图像质量两个角度来看SUR-adapter的性能。

一方面，如下表所示，SUR-adapter可以有效地在不同的实验设置下缓解了文生图扩散模型中常见的语义不匹配问题。在不同类别的语义准则下，准确度有一定的提升。

另一方面，本文利用常用的BRISQUE等常用的图像质量评价指标下，对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验，我们可以发现两者没有显著的差异。

同时，我们还对此进行了人类偏好的调查问卷测试。

以上分析说明，所提出的方法可以在保持图像生成质量的同时，缓解固有的预训练text-to-image固有的图文不匹配问题。

另外我们还可以定性地展示如下图所示的图像生成的例子，更详细的分析和细节请参见本文文章和开源仓库。

HCP实验室简介

中山大学人机物智能融合实验室（HCP Lab）由林倞教授于2010年创办，近年来在多模态内容理解、因果及认知推理、具身智能等方面取得丰富学术成果，数次获得国内外科技奖项及最佳论文奖，并致力于打造产品级的AI技术及平台。

参考资料:

https://arxiv.org/abs/2305.05189

文生图prompt不再又臭又长LLM增强扩散模型简单句就能生成高质量图像ACMMM x2723

0000

评论列表

共(0)条

相关推荐

站长资讯
大屏机握持感不足，轻薄小屏挑选困难，618手机盘点——小尺寸篇
文丨数码知识科普站随着手机的发展，手机体积也越来越大，乃至发展出了8英寸的折叠屏手机，大屏手机带来的最大优势在于内容显示区域的扩大，无论是看新闻追剧，还是玩游戏，大屏能带来更多的显示画面，对于视觉更友好；而且大屏手机往往带来更多的内部空间，所以电池容量可以堆得很大，续航往往不错。
站长网2023-05-24 09:20:11
0000
站长资讯
2023抖音读书生态报告：2022年抖音售出2.5亿单图书
今日，抖音发布《2023抖音读书生态报告》称，过去一年，读书类视频播放量同比增长65.17%，时长≥5分钟的读书类视频数量同比增长279.44%。抖音读书类直播场次同比增长66.23%，观看总人次同比增长96.73%，场均观看人次2700。2022年，2.5亿单图书在抖音售出。49%的消费者是首次在抖音购买图书，00后成了抖音买书的主力军，占据了52%之多。
站长网2023-04-13 15:09:31
0001
站长资讯
茶百道就改标签日期致歉：第一时间关闭涉事门店
近日，有媒体揭露了茶百道在武汉和长沙的两家门店存在擅自篡改原料赏味期标签的违规行为。据悉，茶百道在接到相关报道后，立即采取行动，第一时间关闭了涉事门店，并积极配合当地市场监管部门的调查与整改工作。茶百道表示，公司对于此类违规行为零容忍，将严格追究相关责任人的责任。
站长网2024-03-20 15:23:13
0000
站长资讯
GPT 2 Chatbot神秘机器人登陆LMsys 引发热议
近日，一个名为GPT2Chatbot的神秘机器人在LMsys平台上引发了广泛关注。据悉，这个机器人的测试效果出奇的好，让人们对其背后的技术产生了浓厚的兴趣。有猜测认为，这个GPT2Chatbot可能是OpenAI利用GPT2进行微调改造后，运行在移动设备上的模型。这一猜测并非空穴来风，因为GPT2Chatbot的表现确实非常出色，基本上与gpt-4以及opus处于同一水平。
站长网2024-04-30 13:03:06
0000
站长资讯
姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0
IDEA研究院封神榜团队最近开源了最新的代码大模型Ziya-Coding-34B-v1.0，该模型在HumanEvalPass@1的评测上取得了75.5的好成绩，超过了GPT-4的得分。
站长网2023-09-28 16:32:33
0000