AI新模型KOSMOS-G：实现零样本高保真图像生成

站长网2023-10-12 15:03:011阅

划重点:

🔍 近期，图像生成技术取得显著进展，但从广义视觉语言输入生成图像一直是未开拓领域。

🖼️ KOSMOS-G 是一个新型模型，利用多模型LLMs解决这一问题，能够从文本描述中生成详细图像。

🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型，可用于替代CLIP，并开启更多应用领域。

最近，图像生成技术取得了显著的进展，尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而，一个尚未充分探索的领域是从广义视觉语言输入生成图像，例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G，这是一种利用多模型LLMs来解决这一问题的模型。

KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像，即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP，这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。

KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM（能够同时理解文本和图像），然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时，它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。

KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段，该模型在多模型语料库上进行了预训练。在第二阶段，通过CLIP监督，训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段，KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1，只训练MLLM。在阶段2，带有MLLM冻结的AlignerNet进行了训练。在阶段3，AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。

KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。

KOSMOS-G可以轻松取代图像生成系统中的CLIP，这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上，KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像，为许多创新应用创造机会。

KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略，即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像，并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP，并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之，KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

论文网址:https://arxiv.org/abs/2310.02992

AI新模型KOSMOSG 实现零样本高保真图像生成

0001

评论列表

共(0)条

相关推荐

站长资讯
可商用的ai作曲软件Soundraw 支持多种风格，不限时长
Soundraw是一个AI音乐生成工具，可以根据用户选择的心情、流派和长度自动生成美妙的歌曲。用户只需选择喜欢的音乐流派、情感氛围等，SOUNDRAW的AI系统就可以为用户生成无限的专属音乐。体验地址:https://soundraw.io/用户可以自定义歌曲，例如缩短前奏或改变副歌位置，以适应视频的需要。此外，Soundraw的音乐无需担心版权警示，支持商用。主要功能:
站长网2023-08-29 11:12:45
0001
站长资讯
百度飞桨AI Studio模型库升级支持模型创建、上传、托管
百度宣布，人工智能学习与实训社区飞桨AIStudio模型库全新升级!支持模型创建、上传、托管，并一键调用模型线上开发部署!
站长网2023-05-18 08:34:38
0003
站长资讯
功耗降低40%！特斯拉将对哨兵模式进行优化：二季度有望更新
快科技2月23日消息，据媒体报道，据特斯拉动力总成和能源工程高级副总裁DrewBaglino透露：目前公司正在开发一项更新，将把哨兵模式的功耗降低多达40%。该更新预计今年第二季度上线。虽然特斯拉的哨兵模式可以实时监测车辆周围的情况，但是，该模式的耗电量一直都是十分严重的问题。
站长网2024-02-24 10:04:29
0000
自己吃拼好饭，宠物吃米其林大餐，“富养宠物”捧红一个百亿市场
“狗都吃得比我好。”“这不是我的减脂餐吗?”“你家还缺猫吗?”三文鱼配牛肉蓝莓的美毛套餐、鸡胸肉配青口贝的减脂料理、牛肉猪肝西蓝花混搭的营养碗……视频里的人慢条斯理地给碗里放上各种高端食材和补剂，随后，一只狗狗出现在镜头里开始“干饭”。
站长网站长资讯2025-03-17 01:55:54
0000
站长资讯
科学无国界！清华院长建议分享单晶硅研究成果给美日，助科技进步
站长网2023-05-23 13:30:06
00060