再见设计师!COLE AI系统利用多模型联合生成高质量设计
划重点:
1. 🤯 COLE是由微软亚洲研究院和北京大学的12名研究人员开发的,结合了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型,以及开源图形渲染器Skia。该系统旨在通过用户输入设计项目概念,生成图像并嵌入相关文本,具备可编辑文本和视觉元素的功能。
2. 🌐 COLE采用了不同AI模型的组合,通过对互联网上的10万张高质量原始图形设计图像进行训练,实现了出色的设计生成效果。
3. 🖌️ COLE不仅生成图像,而且提供了可编辑的文本和对象区块,使用户能够在COLE框架内直接进行修改,而无需导出到其他设计软件
近日,微软亚洲研究院和北京大学的研究人员联手开发了一款名为COLE的AI系统,旨在通过多个AI模型的联合工作,为用户提供可编辑的图形设计。COLE的名字来源于亨利·科尔,他被认为是1843年第一张图形化圣诞卡的创作者。

论文网址:https://arxiv.org/pdf/2311.16974.pdf
这一系统的独特之处在于,它不仅可以生成图像,还能够嵌入相关文本,使用户能够通过输入设计项目的概念,如“一张宣传即将举行的冬季假期音乐会的海报,上面有穿着暖和衣物的人在落雪中演奏乐器”,即可获得一张完整的设计。
COLE的背后是一组不同的AI模型,包括Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B以及GPT-4V,以及开源图形渲染器Skia。这些模型的组合是为了应对图形设计的复杂性以及在该领域主要格式(.SVG文件)上缺乏可用的训练数据。
与其它文本到图像生成器相比,如OpenAI的DALL-E3和Midjourney,COLE在设计生成方面取得了令人瞩目的效果。通过对互联网上10万张高质量原始图形设计图像的训练,COLE不仅能够生成清晰有序的图形设计,而且能够在图像内生成可编辑的文本和对象区块。
更值得一提的是,COLE生成的图像可在其框架内进行直接编辑,用户可以点击文本框更改显示的文本或字体,也可以输入新的提示以更改图像的不同视觉元素。这为用户提供了一种便捷的方式,避免了回到设计的起点进行整体修改或将图像导出到其他设计软件的繁琐步骤。

虽然COLE目前更像是一个框架而不是一个成熟的产品,但其研究团队在图形设计服务方面取得的结果令人惊叹。研究人员表示,COLE不仅在生成各种设计项目时表现出色,而且在可编辑性和灵活的编辑空间方面也达到了预期目标。
对于图形设计行业而言,COLE到底是威胁还是新工具呢?研究人员强调,他们设计COLE是为了生成具有可编辑字段的图像,以“在必要时允许用户进一步完善输出,整合人类专业知识”。这意味着图形设计的专业培训仍然对于从COLE框架中获得最佳结果是必要的。
然而,研究人员也指出,相比于其他文本到图像生成器,如他们明确引用的DALL-E3,“我们的COLE系统…能够在只需要简单用户意图的情况下生成优质的图形设计图像。”这表明,研究人员认为COLE有可能让那些没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。
尽管目前COLE尚未公开提供,但研究人员表示他们的Github项目网页上将很快发布演示版本,使更多人能够了解和体验这一引人注目的图形设计生成框架。
苹果开源图像新技术ml-mgie 可通过指令修改图片
苹果开源了一种新的技术,名为多模态大语言模型引导的编辑(MGIE),这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型语言模型(MLLMs)进行图像编辑指令的生成,通过端到端训练,模型不仅捕捉视觉想象力,还执行图像处理操作。该方法在ICLR'24上取得了Spotlight成果。站长网2024-02-05 09:45:390002字节团队提出猞猁 Lynx 模型 多模态 LLMs 开创理解生成新高度
字节团队最近提出了一种名为猞猁(Lynx)的多模态大语言模型(LLMs)。他们通过对二十多种多模态LLMs变体进行系统实验和评估,确定了以prefix-finetuning为主要结构的Lynx模型,并且还提出了一个新的多模态评估基准Open-VQA。论文:https://arxiv.org/abs/2307.02469网站:https://lynx-llm.github.io/站长网2023-07-18 17:22:580000预计到2027年,生成式人工智能智能手机市场份额将达到40%
划重点:📌生成式人工智能智能手机预计从2024年开始引领市场趋势,智能手机制造商计划将生成式人工智能功能融入设备中。📌三星电子预计将在这个新兴市场中占据领先地位,其GalaxyAI将成为关键产品。📌高通有望在芯片市场上占据主导地位,预计将拥有近80%的市场份额。站长网2023-12-26 18:19:130000科技资产管理公司 Ark Invest认为人工智能投资的机会在于小众领域
近日,专注于科技领域的资产管理公司ArkInvest选定了几家公司作为其“沉睡浪潮”战略的一部分,这些公司在人工智能领域拥有前景可期的投资机会。值得注意的是,著名科技公司如苹果、Alphabet、微软和英伟达等,并未被列入其中。ArkInvest公司特别强调不应认为这些“巨型”科技股将是“人工智能革命”的主要受益者。站长网2023-08-22 12:00:570000视频号该找个CEO了
作为全年最重要的电商营销节点,双11尽管近年来热度下滑,依然是新老电商平台的兵家必争之地。本届大促,淘宝天猫、京东、拼多多、抖音、快手等于10月上旬相继加入战局,不低于15%的官方直降、每300减50等低价玩法几乎成为标配。0000