AI新模型KOSMOS-G:实现零样本高保真图像生成
划重点:
🔍 近期,图像生成技术取得显著进展,但从广义视觉语言输入生成图像一直是未开拓领域。
🖼️ KOSMOS-G 是一个新型模型,利用多模型LLMs解决这一问题,能够从文本描述中生成详细图像。
🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型,可用于替代CLIP,并开启更多应用领域。
最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。
KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。
KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。
KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。
KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。
KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。
KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。
论文网址:https://arxiv.org/abs/2310.02992
企二代接班,从捧红自己开始
“大学毕业前,我爸一直跟我说家里欠钱。直到毕业后找不到心仪的工作,我爸说那就来家里上班吧,结果第一次投简历还被刷掉了。”去年年底,张子龙参与了UP主“翔翔大作战”的一期视频录制。在节目里,他透露了自己的身份:麻辣王子创始人张玉东的儿子。随后相关片段在互联网上二次传播,引起网友们的集体狂欢。人们津津乐道于这个“被父亲隐瞒家产”的故事,并在想象中给张子龙打造好了“爽文男主”的人设。站长网2024-03-13 09:09:250000免费版“Github Copilot”,编程能力还翻倍?!谷歌硬刚微软,推出全新Colab编程平台
最近,谷歌宣布GoogleColaboratory(Colab)即将加入全新的AI编码功能,包括代码生成、代码补全、代码聊天机器人。而且,最重要的是,与GitHubCopilot每月10美元的订阅费用相比,谷歌全新的AI编码功能将完全免费!站长网2023-05-29 11:59:020003周鸿祎:别小看直播网红经济 俞敏洪吃着火锅唱着歌就把地方文旅带火了
快科技2月15日消息,今日,360创始人周鸿祎发微博称,不能小看直播和网红经济,俞敏洪吃着火锅唱着歌就把一个地方的文旅给带火了。他表示,最近各地的文旅部门都在争当网红。前段时间哈尔滨引发热潮,随后河南也兴起了很多网红。针对这些现象,周鸿祎认为,将来很多央国企,肯定也有这样的需求。对于他个人,目前还没有思考这些网红经济的商业模式,因为他还没有到1000万粉丝。0000GLM团队开源超拟人大模型CharacterGLM 6B版
清华CoAI团队、聆心智能团队、GLM技术团队联手研发了CharacterGLM,一个专门为定制中文AI角色设计的模型,参数规模从6B到66B不等。相较于传统模型,CharacterGLM在表现上更为出色,使用门槛也更低。站长网2024-02-07 10:13:170001美团:iPhone 15系列销量同比暴涨13倍
今天,iPhone15系列手机正式公开发售,不仅在苹果官网和官方旗舰店可以购买,还加入了美团等外卖平台的销售渠道。最新公布的数据显示,iPhone15系列新品的销量相比iPhone14系列同期增长了13倍。其中,北京、上海、广州、杭州和深圳成为全国销售额最高的五个城市,销售额平均增速接近1000%,而三线及以下低线城市销量增长23倍。站长网2023-09-22 21:07:380000