再见设计师!COLE AI系统利用多模型联合生成高质量设计
划重点:
1. 🤯 COLE是由微软亚洲研究院和北京大学的12名研究人员开发的,结合了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型,以及开源图形渲染器Skia。该系统旨在通过用户输入设计项目概念,生成图像并嵌入相关文本,具备可编辑文本和视觉元素的功能。
2. 🌐 COLE采用了不同AI模型的组合,通过对互联网上的10万张高质量原始图形设计图像进行训练,实现了出色的设计生成效果。
3. 🖌️ COLE不仅生成图像,而且提供了可编辑的文本和对象区块,使用户能够在COLE框架内直接进行修改,而无需导出到其他设计软件
近日,微软亚洲研究院和北京大学的研究人员联手开发了一款名为COLE的AI系统,旨在通过多个AI模型的联合工作,为用户提供可编辑的图形设计。COLE的名字来源于亨利·科尔,他被认为是1843年第一张图形化圣诞卡的创作者。
论文网址:https://arxiv.org/pdf/2311.16974.pdf
这一系统的独特之处在于,它不仅可以生成图像,还能够嵌入相关文本,使用户能够通过输入设计项目的概念,如“一张宣传即将举行的冬季假期音乐会的海报,上面有穿着暖和衣物的人在落雪中演奏乐器”,即可获得一张完整的设计。
COLE的背后是一组不同的AI模型,包括Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B以及GPT-4V,以及开源图形渲染器Skia。这些模型的组合是为了应对图形设计的复杂性以及在该领域主要格式(.SVG文件)上缺乏可用的训练数据。
与其它文本到图像生成器相比,如OpenAI的DALL-E3和Midjourney,COLE在设计生成方面取得了令人瞩目的效果。通过对互联网上10万张高质量原始图形设计图像的训练,COLE不仅能够生成清晰有序的图形设计,而且能够在图像内生成可编辑的文本和对象区块。
更值得一提的是,COLE生成的图像可在其框架内进行直接编辑,用户可以点击文本框更改显示的文本或字体,也可以输入新的提示以更改图像的不同视觉元素。这为用户提供了一种便捷的方式,避免了回到设计的起点进行整体修改或将图像导出到其他设计软件的繁琐步骤。
虽然COLE目前更像是一个框架而不是一个成熟的产品,但其研究团队在图形设计服务方面取得的结果令人惊叹。研究人员表示,COLE不仅在生成各种设计项目时表现出色,而且在可编辑性和灵活的编辑空间方面也达到了预期目标。
对于图形设计行业而言,COLE到底是威胁还是新工具呢?研究人员强调,他们设计COLE是为了生成具有可编辑字段的图像,以“在必要时允许用户进一步完善输出,整合人类专业知识”。这意味着图形设计的专业培训仍然对于从COLE框架中获得最佳结果是必要的。
然而,研究人员也指出,相比于其他文本到图像生成器,如他们明确引用的DALL-E3,“我们的COLE系统…能够在只需要简单用户意图的情况下生成优质的图形设计图像。”这表明,研究人员认为COLE有可能让那些没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。
尽管目前COLE尚未公开提供,但研究人员表示他们的Github项目网页上将很快发布演示版本,使更多人能够了解和体验这一引人注目的图形设计生成框架。
阿里云智能CTO周靖人:MaaS已成标准,未来应用都将围绕模型开发
阿里云智能集团CTO周靖人在2023中关村论坛人工智能大模型发展论坛上,发表了《MaaS,云智时代的AI新范式》的主题演讲。周靖人指出,“以模型为中心的开发范式(MaaS)已成为行业标准,未来应用开发的整个链路都会基于这一理念来做。”周靖人表示,Modelasaservice概念正在被广泛接受,模型会作为业务和开发系统开发的重要生产元素。站长网2023-05-29 12:14:260000微信视频号上线原创标记外显、原创保护记录、创作分成计划
微信宣布,视频号上线3大原创能力:原创标记外显、原创保护记录、创作分成计划。原创标记外显在视频号内容发布时,页面最下端新增了“原创声明”功能,开启后即可选择“原创类型”,享受平台保护和优先推荐。通过原创声明审核后,这条视频的评论区将展示“已声明原创”标签,在创作者个人主页将展示累计原创条数。原创保护记录站长网2023-05-29 13:46:500000日本 Rapidus 与 Tenstorrent 达成合作 将共同开发 2 纳米 AI 芯片
RapidusCorporation,一家专注于高级逻辑半导体的研究、开发、设计、制造和销售的公司,今天宣布已与专注于人工智能(AI)计算的下一代计算公司TenstorrentInc.达成合作协议,共同开发基于2纳米逻辑半导体的AI边缘设备的半导体知识产权(IP)。站长网2023-11-17 16:44:160001研究人员推出全新训练方法 提高DALL-E 3图像生成能力
要点:1.DALL-E3是一款文本到图像生成模型,近期因其出色的文本描述生成图像能力备受关注。然而,它面临了一些挑战,包括空间感知、文本呈现和图像细节保持等方面的问题。2.一项最新的研究提出了一种综合的训练策略,结合了模型生成的合成标题和来自人工生成描述的真实标题,旨在提高DALL-E3的图像生成能力并解决这些问题。站长网2023-11-01 10:27:540000OpenAI宣布安卓版ChatGPT已面向16国用户推出
OpenAI官方宣布,安卓版的ChatGPT应用已经面向阿根廷、加拿大、法国、德国、印度尼西亚、爱尔兰、日本、墨西哥、尼日利亚、菲律宾、英国和韩国的用户推出。这意味着安卓用户现在可以在16个国家和地区使用这个应用,来与聊天机器人进行交互,获取问题和建议的答案。据了解,此前美国、印度、孟加拉国和巴西四国的安卓用户已可在谷歌Play商店进行下载使用。站长网2023-07-28 09:58:590000