FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法
站长网2024-02-21 11:19:560阅
划重点:
⭐️ FreeControl 提供一种无需训练即可控制任何文本到图像扩散模型的空间控制方法
⭐️ 支持多个条件、架构和检查点同时进行控制生成
⭐️ 通过结构和外观引导,实现对生成图像的控制
在最新的研究中,研究人员提出了一种名为 FreeControl 的方法,可以实现对文本到图像生成模型的空间控制,而无需进行训练。这项研究支持同时控制多个条件、架构和检查点,为生成过程提供了更大的灵活性。通过结构引导和外观引导,FreeControl 能够促进生成图像与指导图像的结构对齐,以及在具有和不具有控制的情况下生成的图像之间的外观对齐。

FreeControl 方法包括分析阶段和合成阶段。在分析阶段,FreeControl 通过查询文本到图像模型生成尽少一张种子图像,然后从生成的图像中构建线性特征子空间。在合成阶段,FreeControl 利用子空间中的引导来促进与指导图像的结构对齐,以及在有控制和无控制情况下生成的图像之间的外观对齐。
研究人员展示了使用 T2I 扩散模型进行可控生成的定性结果。他们展示了支持任何条件生成的能力,并通过提供代码和相关工作的引用,展示了 FreeControl 方法的有效性和广泛适用性。


FreeControl 有助于对许多不同的架构和检查点进行方便的免训练控制,允许大多数现有免训练方法失败的具有挑战性的输入条件,并通过基于训练的方法实现有竞争力的合成质量。
项目网址:https://top.aibase.com/tool/freecontrol
论文网址:https://arxiv.org/pdf/2312.07536.pdf
0000
评论列表
共(0)条相关推荐
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。据开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了BigCode榜首。这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。站长网2023-11-03 14:54:340000快手出品!DragAnything:拖动锚点精准控制视频物体和镜头运动
划重点:⭐️快手科技联合浙江大学研究团队提出了DragAnything方法,利用实体表示实现了对任何物体的运动控制。⭐️对比现有的运动控制方法,DragAnything在用户友好性、对象多样性和多对象控制方面具有优势。⭐️在实验中,DragAnything在FVD、FID和用户调查方面取得了state-of-the-art的表现,尤其在对象运动控制方面超过了以前的方法。站长网2024-03-13 11:56:520001腾讯智影宣布声音模型大升级:更自然流畅、语调情感更丰富
腾讯智影宣布声音模型大升级,具体提升包括更自然流畅、语调情感更丰富、减少语音瑕疵和适应性更好。新版本声音更加自然连贯,具有更丰富的语调和情感,减少了语音瑕疵的出现概率,并能更好地适应不同文本内容和语境。同时,智影还推出了两款免费新音色,分别是热情似火的女声和可爱亲切的女声,适用于对话闲聊场景。此外,声音定制效果也有所升级,采样率从16K升级到24K,用户可以定制同样升级版效果的音色。站长网2024-05-24 11:06:140000Anim400K:一个针对视频自动配音设计的数据集
Anim400K:一个针对视频自动配音设计的数据集,包含超过425,000个对齐的音视频剪辑,总时长达763小时。这些剪辑来自超过190个作品,涵盖了数百种主题和类型,并包含英语和日语两种语言的内容。利用这个数据集,开发者可以训练和改进自动配音系统,同时支持多种视频相关任务,如同步翻译、引导式视频概括和类型/主题/风格分类。站长网2024-01-16 14:31:380002谷歌聊天机器人Bard为“Google it”按钮添加了更多搜索主题
为了进一步探索AI聊天机器人的功能,Google将谷歌搜索引擎的自动搜索短语集成到Bard聊天机器人中。据悉,谷歌正在将搜索建议整合到其Bard聊天机器人中,用户在回复后点击Bard中的“Googleit”按钮,将首先收到与主题匹配的搜索短语建议,点击该短语将带出匹配结果的谷歌搜索页面。谷歌表示,此举旨在涵盖更广泛的兴趣范围和更多相关主题。站长网2023-04-12 11:41:290000