AI新模型KOSMOS-G:实现零样本高保真图像生成
划重点:
🔍 近期,图像生成技术取得显著进展,但从广义视觉语言输入生成图像一直是未开拓领域。
🖼️ KOSMOS-G 是一个新型模型,利用多模型LLMs解决这一问题,能够从文本描述中生成详细图像。
🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型,可用于替代CLIP,并开启更多应用领域。
最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。
KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。
KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。
KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。
KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。
KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。
KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。
论文网址:https://arxiv.org/abs/2310.02992
学生起诉丰巢退还1元保管费获法院支持
站长之家(ChinaZ.com)3月7日消息:据南方都市报报道,上海大学法学院研究生艾震因一元快递保管费问题,将深圳市丰巢科技有限公司告上了法庭。经过法院的审理,艾震于3月5日收到了深圳前海合作区人民法院的判决书,法院对其诉求表示支持。然而,丰巢科技在3月6日表示,已对判决进行上诉。站长网2024-03-07 16:42:500000SettleMint 的 AI 助手旨在帮助 web3 开发人员编写更好的智能合约
SettleMint是一个面向企业的低代码区块链编程工具,最近在其平台上添加了AI助手。该AI助手旨在帮助开发人员创建智能合约、集成数据并增强质量保证(QA)测试。人工智能可以帮助Draft智能合约,并解释每一行代码的作用。尽管数字货币价格暴跌,但这家成立七年的比利时公司的用户仍在稳步增长,因为越来越多的企业认识到区块链技术的好处,但缺乏将其想法变为现实的技术技能。站长网2023-08-03 14:47:530000AMD收购人工智能软件公司 Nod.ai
AMD宣布签署协议收购开源人工智能(AI)软件公司Nod.ai,以扩展公司的开源AI软件能力。Nod.ai的加入将为AMD带来一个经验丰富的团队,该团队开发了领先行业的软件技术,可加速部署针对AMDInstinct™数据中心加速器、Ryzen™AI处理器、EPYC™处理器、Versal™SoC和Radeon™GPU进行优化的AI解决方案。站长网2023-10-11 18:41:060001国家邮政局:2023年邮政行业寄递业务量累计完成1624.8亿件
据国家邮政局消息,2023年,邮政行业寄递业务量累计完成1624.8亿件,同比增长16.8%。其中,快递业务量(不包含邮政集团包裹业务)累计完成1320.7亿件,同比增长19.4%。2023年,同城快递业务量累计完成136.4亿件,同比增长6.6%;异地快递业务量累计完成1153.6亿件,同比增长20.5%;国际/港澳台快递业务量累计完成30.7亿件,同比增长52.0%。站长网2024-01-22 10:30:340000高通骁龙峰会2024定档:骁龙8 Elite将于10月22日发布
站长之家(ChinaZ.com)10月8日消息:高通公司正式宣布,2024年骁龙峰会将于10月22日至24日举行,届时骁龙系列的新旗舰芯片将正式亮相。新命名的骁龙8Elite芯片,其中"Elite"意为精英,代表了该芯片的高端定位。至于官方的中文名称,目前尚未公布,需要等到发布会后才能揭晓。0000