AI新模型KOSMOS-G:实现零样本高保真图像生成
划重点:
🔍 近期,图像生成技术取得显著进展,但从广义视觉语言输入生成图像一直是未开拓领域。
🖼️ KOSMOS-G 是一个新型模型,利用多模型LLMs解决这一问题,能够从文本描述中生成详细图像。
🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型,可用于替代CLIP,并开启更多应用领域。
最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。
KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。
KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。
KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。
KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。
KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。
KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。
论文网址:https://arxiv.org/abs/2310.02992
打开男人的钱包,这款App上线第3个月收入超200万
不过最近,编辑部发现一个“含男量”很高的App,成绩意外地还不错。连续两个月下载量逼近百万,变美App盯上男性用户?Umax-BecomeHot是一款颜值打分器App。用户上传脸部照片,系统通过分析给用户颜值打分,然后针对性指出需要改进的地方并督促用户改进,最终让用户实现颜值飞升。站长网2024-03-06 11:13:230000Google 悄然放弃面向 Z 世代的基于人工智能的聊天机器人应用
据CNBC消息,谷歌正在为Z世代用户开发一款基于人工智能的移动聊天机器人应用,其中包括互动的数字角色。然而,根据CNBC所见的资料,谷歌最近在内部重组中「降低了优先级」,因此该项目的开发工作已经停止。通常,在谷歌中,如果某个产品的优先级降低,相关的工作也会停止。站长网2023-07-14 20:07:470000ChatGPT本周上线联网和插件功能 ChatGPT Plus用户可使用
OpenAI宣布,将在本周向所有ChatGPTPlus用户推出网络浏览和插件功能,允许ChatGPT访问互联网并使用70多个第三方插件。据了解,目前ChatGPT的Web浏览和插件功能已推出测试版,ChatGPTPlus用户,可以抢先体验新功能。网页浏览:尝试新版本的ChatGPT,它知道何时以及如何浏览互联网,以回答有关最近事件的问题。站长网2023-05-15 08:29:450000SDXL重要更新!Openpose和Scribble模型质量显著提升
SDXL在经过近一年的发展后,终于迎来了一些重要的更新,这些更新显著提升了其功能性和用户体验。图片来自歸藏以下是关于SDXL最近进展的概述:Openpose和Scribble模型的发布:xinsir的贡献:由xinsir发布的Openpose和Scribble模型在质量上取得了显著提升,尤其是Openpose模型。功能限制:需要注意的是,这些新模型专注于姿态识别,并不包括面部识别功能。站长网2024-05-30 21:23:400000三星希望设备端 AI 能提高 Galaxy S24 销量:目标 2024 年出货量达到 3500 万部
随着人工智能(AI)成为科技行业最热门的话题,不少安卓手机制造商正竞相将AI驱动的功能集成到他们的手机中,以吸引更多消费者。最新报道称,三星可能在AI实力上超越Pixel8,该公司据说计划在即将推出的旗舰手机中集成OpenAI的ChatGPT或GoogleBard。三星希望这将帮助其在明年销售3500万部GalaxyS24手机。站长网2023-11-08 09:21:100000