体验当甲方的快乐!用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……
*头图来源于DALL·E3,描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画,每一片树叶都演奏着传统的蓝草乐器,在乡村森林的背景中,点缀着丰收之月的柔光。
全自动画图神器来了!ChatGPT现在能直接出图了。
只需要告诉ChatGPT你想要一张什么图,ChatGPT就能直接帮你写好完整的描述词,给到DALL·E3生成图片。像这张混合星云爆炸的扣篮创意图,换成以往的AI绘图产品,一般都需要费力编写大段的“咒语”才能实现。
“一幅表现篮球运动员扣篮的油画,描绘的是星云的爆炸”,图源DALL·E3
DALL·E3是OpenAI最近推出的新版AI绘图模型,原生构建在ChatGPT之上,进一步降低了AI绘画门槛,用户可以在对话中将自己的想法转化成准确的图像,甚至还能画出正确的文字。
用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬,它应该长什么样子”,ChatGPT立马写了四段不同风格的提示词,并生成对应图像
“这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”,图源DALL·E3
目前只有一小部分ChatGPT Plus用户获得了内测资格。不过很快,与OpenAI深度合作的微软便将DALL·E3集成在浏览器Bing中,可供所有Bing Chat和Bing Image Creator用户免费使用。由于来尝鲜的用户太多,Bing最近流量激增,报道称微软又紧急增加了数千台服务器上线。
有了ChatGPT支持的DALL·E3真的像介绍的这么厉害吗?和Midjourney等其他AI绘画产品又有什么区别呢?“头号AI玩家”在Bing上对DALL·E3进行了一番测评。
p.s. 想要体验的玩家可以访问以下两个入口,登录微软账户即可使用,目前Bing Image Create每天有25次免费的快速生成额度,用完之后生成图片需要更长的时间。
Bing Image Create网址:https://cn.bing.com/create
Bing Chat网址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q
文章插图
内容创作者为了减少购买版权素材的成本,或者快速找到符合需求的图片,可能会试着用AI生成配图。
我们先用简短的提示词试试,输入“画一个招聘市场”,DALL·E3默认生成了四张1024*1024分辨率的图片,内容相似,都是拿着放大镜观察市场数据。
我们可以给出更详细的要求,比如“画一个现实里的招聘市场,人来人往,非常热闹”。不过DALL·E3理解错了现实里的意思,变成了插画风格,并写上了文字“Real Job Market”,部分图片的文字还出现了错误。
作为甲方,我们再次提出了修改意见——“人头攒动的招聘市场,写实摄影,不含文字,横屏”。可惜的是,DALL·E3给出的图比较抽象,虚实结合,还是出现了文字。
相比之下,同样的提示词,Midjourney的理解就比较准确了,满屏都是求职者。
Crowded recruitment market, realistic photography, no text --ar16:9--v5.2
换一个简单点的描述看看,“两个中国人在面试中”,这下DALL·E3的表现基本不错,只是交叉的手指都没处理好。
而Midjourney与DALL·E3的理解不同,认为是两个人在面对面对谈,四张图的人物、环境、风格差异都比较大,细节上比DALL·E3更真实一些。
Two Chinese people during the interview --ar16:9--v5.2
DALL·E3的特色在于能够在对话中生成图像,除了给出明确的提示词,我们还可以试着直接输入一段文字,要求生成符合文意的配图。
这段话讨论了非技术人员怎么跟上AI浪潮,语义复杂,并没有描述具体的人或事物,DALL·E3的结果令人惊喜,有一座富有科技感的未来城市和工作在其中的人们,也有许多人围绕着智慧大脑的脉络进行工作,从不同角度切中了文意。
我们试着在其中一张原图的基础上继续加入文字“AI”,但是DALL·E3重新生成了四张跟原图无关的图片,似乎不能直接修改已生成的图片,比如调整一些细节。
LOGO设计
既然有了ChaGPT支持,我们不妨让DALL·E3帮我们完善想法,自动生成详细提示,定制一张个性化的LOGO。
一开始Bing认为“头号AI玩家”与人工智能和游戏有关,所以设计的LOGO主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后,Bing以人工智能头像和数字1为主要元素重新设计了四张图。
第三张感觉更简洁一些,我们继续沟通修改。
可以看到,Bing能比较好地理解需求,但生成的文字有时不太准确,需要再后期修改。对比Midjourney,我们无法实现这样来回的沟通,只能自己琢磨提示词,并且很难生成AIGC这么多文字,Midjourney的优势在于生成的图片质量比较高,设计感更强。
The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v5.2
在广告营销、电商领域,AI商品图的应用越来越多,那么DALL·E3能生成可用的素材图吗?
我们先让Bing生成一只中式风格的、适合秋冬使用的手提包,看来它理解的中式是喜庆、刺绣、流苏。
换成传统与现代结合的新中式风格呢?果然变成了黑色、金色为主的皮质包包,不过还是保留了复杂的刺绣图案。即使要求装饰简约一点,Bing理解的中式风格依旧离不开刺绣。
而Midjourney生成的显然更素雅一些,背景也更简洁。
A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v5.2
如果想换个背景和场景,比如秀场上,一个优雅的女模特拿着这只包,那Bing暂时还做不到,会像前文一样重新根据描述生图。
最近推特上还流行一种DALL·E3的玩法,用来生成一些排列整体的Knolling摄影照片,如下图所示,一个主体周围有许多相关物品环绕,放置在干净的背景上。
X@chaseleantj
想生成类似的图片却不知道怎么写提示词, 没关系,直接问Bing就行了。
AI降低了创作的门槛,可以帮助我们把脑中的奇思妙想画出来,其随机性也扩宽了想象力的边界。因而,创意梗图一直是AI绘图领域的热门类型。
我们来开开脑洞,让Bing画一只巨大的猫咪爬在东方明珠电视塔上。
只有左下的一张比较符合要求,其他东方明珠塔的数量和造型都有些错误,而且猫咪看起来像是动画建模,不太真实。
Midjourney虽然画出了真实的猫,但地点不在东方明珠塔,大小比例也不对。
A giant cat climbing on the Oriental Pearl TV Tower --v5.2
下面我们再画一张最近的热门IP表情包,“Loopy正在上班”。
起初Bing不认识Loopy,理解成了古怪的、疯狂的意思。我们告诉Bing它来自韩国动画片《小企鹅Pororo》之后,Bing表示明白了,却把正在工作的主角换成了企鹅。
看来DALL·E3还缺乏对于最新流行的素材训练。如果换成更经典的IP,那么DALL·E3和Midjourney都能准确表现,并且DALL·E3还配上了文字“假装上班,正在摸鱼”。
A meme of Pikachu working at a computer --v5.2
最近AI绘画还流行一种模仿iPhone拍摄的恐怖照片风格,非常贴合万圣节的氛围,我们试试直接输入这一大段的描述。
提示词:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."
四张图片基本都满足要求,左上的皮卡丘有点怪可爱的。但是同样的提示词,Midjourney就不能完全理解,还是需要转换成“咒语”。
在OpenAI官方演示中,ChatGPT可以通过自然的对话生成一只想象中的刺猬,并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了,如果你有一个想法,可以让AI先帮忙扩写故事、描绘场景,然后根据自动生成的提示词画出完整作品。
以丑小鸭变天鹅的故事为例,我们要求Bing把这个过程以儿童绘本的形式画出来。
Bing虽然一口气生成了三个画面,的确有丑小鸭和白天鹅,是儿童绘本的形式,但是前后缺乏逻辑关系,情节呈现不完整,可能还是需要自己按照一个个情节依次引导生成。
Bing还可以重新创作一个新的故事,比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”,画出了它和邪恶厨师的战斗画面。真别说,故事梗概和画面都挺符合我的想象的,你觉得怎么样呢?
小结
通过以上测评,可以看到DALL·E3在搭载了ChatGPT后,可以完全用自然语言进行交流,在对话中绘图创作,不用复杂的提示工程,简短的提示词就能生成不错的图片,对抽象需求的理解能力也比较强,支持中文。不过文生图仍然是越详细的描述,输出越准确,这一点没有变。
DALLE·3和Midiourney等其他AI绘图产品相比,各有其优劣势:
在使用体验和交互上,DALLE·3的交互式绘图比较直观方便,降低了使用门槛,还能直接读懂大段文字自动作图。Midjourney目前主要在Discord平台上运行,需要在特定的频道里输入描述,不能文字交互。文心一言虽然也可以在网页上通过对话绘图,但缺少上下文理解,不能继续调整,目前一次只能生成一张图。
图源文心一言
在生成图片方面,DALL·E3的优势是能生成较为准确的文本,可能有错误,但其他AI绘画产品目前直接文生图得到的文字都难以辨认,需要借助微调模型上传参考文字再融合。DALL·E3默认生成1024*1024的正方形图片,适用范围较窄,而Midiourney可自定义多种尺寸,其他AI绘图产品基本都支持不同比例。
对于写实风格的图片,DALL·E3生成的人脸和手看起来可能失真,而Midiourney目前V5.2版本已经非常逼真了,Stable Diffusion也有超写实的人像模型。
另外,在Bing上要求修改图片的时候,Bing是根据对话修改提示语再输入DALL·E3进行生成,而不是直接修改已生成的图片,DALL·E3暂时还不能像Midjourney一样快速进行微调,包括扩图、修改局部细节,更不用说Stable Diffusion复杂的参数调整了。所以作为专业创作者的生产力工具而言,DALL·E3的实用性还不够强。
在安全问题上,DALL·E3的内容限制较为严格,拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像,比如要求画一张马斯克在火星上的照片,Bing显示无法创建。
根据OpenAI发布的DALL·E3的22页技术报告,ChatGPT会改写提示,包括删除公众人物的名字、将人物与特定属性联系起来,以及以通用方式书写品牌。OpenAI还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。
报告地址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf
同时,微软表示,为了保证用户通过Bing Image Creator创建的内容的安全性,已经在生成的图片中内置了,符合C2PA规范的数字水印,包含图片创立日期、出处等信息。人的肉眼无法看见这些水印,但AI能识别出来。
总之,OpenAI的DALL·E3现在加上了理解文字和图像的智慧大脑,我们可以把ChatGPT作为合作伙伴一起头脑风暴进行创作,无论是出于娱乐爱好或者专业需求。AI绘画模型正在不断进化,根据不同的用户需求和适用场景可以选择不同的工具,DALL·E3不会完全替代其他产品,但新的创作方式已经更进一步了。
OpenAI“断供”,谁才是最大赢家
“宫斗”之后,OpenAI又出“幺蛾子”了。2024年7月9日起,OpenAI将采取额外措施严控API调用,如在中国大陆、中国香港、中国澳门等不支持地区检测到使用情况,轻则切断流量、重则封禁账号。这意味着,国内相关开发将面临“断供”。AI应用、行业模型等开发需求怎么办?所幸,中国大模型早已今非昔比,纷纷争当“平替”,摩拳擦掌迎接这波“泼天富贵”。毕竟,机会永远留给有准备的人。站长网2024-07-01 19:50:390000高德地图升级“积水地图” 可查看当前城市易积水点
近日,受台风“杜苏芮”北上影响,多地降雨量已达到暴雨量级,给人们出行带来极大挑战。为此,高德升级“积水地图”,并与各地交通运输等主管部门合作,及时发布积水、断路、绕行信息,以便用户在出行时提供参考。站长网2023-08-01 13:59:250003vivo Y100发布 售价1399元起
今日,vivo正式发布了千元档新品vivoY100,提供了琉云青、璃光蓝、星夜黑三种时尚配色。售价方面,vivoY1008GB128GB仅售1399元,8GB256GB只需1599元,12GB256GB仅1799元,12GB512GB仅售1999元,并将在11月4日正式开售。站长网2023-10-30 15:40:020000小红书难捧影视“新星”
《长月烬明》热播期间,追剧爱好者晓风无意间发布了一篇追剧笔记,令她意外的是,这篇吐槽倾向的笔记赢得了众多用户的共鸣,收获了大量流量,无论是浏览还是点赞数都远超其日常水平。收获流量眷顾的不止是晓风。她观察到,最近一段时间,影视类内容在小红书较以往“吃香”了很多,“我在小红书追剧”似乎成了平台的新趋势,素人博主发布的相关笔记时有“爆款”出现。站长网2023-04-24 18:08:200003视频生成框架WonderJourney:一句话一张图就能生成无限3D画面
划重点:🌐斯坦福华人提出全新视频生成框架WonderJourney,能一句话或一张图生成连贯的3D场景。🎨WonderJourney通过LLM生成场景描述,使用文本驱动的视觉模块创造连续的3D场景,通过大型VLM验证生成效果。🎨WonderJourney还可以根据文本描述(如诗歌、俳句和故事摘要)生成可控制的奇妙之旅,呈现出多样化的视觉效果。站长网2023-12-14 14:55:420001