体验当甲方的快乐!用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……
*头图来源于DALL·E3,描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画,每一片树叶都演奏着传统的蓝草乐器,在乡村森林的背景中,点缀着丰收之月的柔光。
全自动画图神器来了!ChatGPT现在能直接出图了。
只需要告诉ChatGPT你想要一张什么图,ChatGPT就能直接帮你写好完整的描述词,给到DALL·E3生成图片。像这张混合星云爆炸的扣篮创意图,换成以往的AI绘图产品,一般都需要费力编写大段的“咒语”才能实现。

“一幅表现篮球运动员扣篮的油画,描绘的是星云的爆炸”,图源DALL·E3
DALL·E3是OpenAI最近推出的新版AI绘图模型,原生构建在ChatGPT之上,进一步降低了AI绘画门槛,用户可以在对话中将自己的想法转化成准确的图像,甚至还能画出正确的文字。

用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬,它应该长什么样子”,ChatGPT立马写了四段不同风格的提示词,并生成对应图像

“这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”,图源DALL·E3
目前只有一小部分ChatGPT Plus用户获得了内测资格。不过很快,与OpenAI深度合作的微软便将DALL·E3集成在浏览器Bing中,可供所有Bing Chat和Bing Image Creator用户免费使用。由于来尝鲜的用户太多,Bing最近流量激增,报道称微软又紧急增加了数千台服务器上线。

有了ChatGPT支持的DALL·E3真的像介绍的这么厉害吗?和Midjourney等其他AI绘画产品又有什么区别呢?“头号AI玩家”在Bing上对DALL·E3进行了一番测评。
p.s. 想要体验的玩家可以访问以下两个入口,登录微软账户即可使用,目前Bing Image Create每天有25次免费的快速生成额度,用完之后生成图片需要更长的时间。

Bing Image Create网址:https://cn.bing.com/create

Bing Chat网址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q
文章插图
内容创作者为了减少购买版权素材的成本,或者快速找到符合需求的图片,可能会试着用AI生成配图。
我们先用简短的提示词试试,输入“画一个招聘市场”,DALL·E3默认生成了四张1024*1024分辨率的图片,内容相似,都是拿着放大镜观察市场数据。

我们可以给出更详细的要求,比如“画一个现实里的招聘市场,人来人往,非常热闹”。不过DALL·E3理解错了现实里的意思,变成了插画风格,并写上了文字“Real Job Market”,部分图片的文字还出现了错误。

作为甲方,我们再次提出了修改意见——“人头攒动的招聘市场,写实摄影,不含文字,横屏”。可惜的是,DALL·E3给出的图比较抽象,虚实结合,还是出现了文字。

相比之下,同样的提示词,Midjourney的理解就比较准确了,满屏都是求职者。

Crowded recruitment market, realistic photography, no text --ar16:9--v5.2
换一个简单点的描述看看,“两个中国人在面试中”,这下DALL·E3的表现基本不错,只是交叉的手指都没处理好。

而Midjourney与DALL·E3的理解不同,认为是两个人在面对面对谈,四张图的人物、环境、风格差异都比较大,细节上比DALL·E3更真实一些。

Two Chinese people during the interview --ar16:9--v5.2
DALL·E3的特色在于能够在对话中生成图像,除了给出明确的提示词,我们还可以试着直接输入一段文字,要求生成符合文意的配图。


这段话讨论了非技术人员怎么跟上AI浪潮,语义复杂,并没有描述具体的人或事物,DALL·E3的结果令人惊喜,有一座富有科技感的未来城市和工作在其中的人们,也有许多人围绕着智慧大脑的脉络进行工作,从不同角度切中了文意。
我们试着在其中一张原图的基础上继续加入文字“AI”,但是DALL·E3重新生成了四张跟原图无关的图片,似乎不能直接修改已生成的图片,比如调整一些细节。


LOGO设计
既然有了ChaGPT支持,我们不妨让DALL·E3帮我们完善想法,自动生成详细提示,定制一张个性化的LOGO。


一开始Bing认为“头号AI玩家”与人工智能和游戏有关,所以设计的LOGO主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后,Bing以人工智能头像和数字1为主要元素重新设计了四张图。

第三张感觉更简洁一些,我们继续沟通修改。




可以看到,Bing能比较好地理解需求,但生成的文字有时不太准确,需要再后期修改。对比Midjourney,我们无法实现这样来回的沟通,只能自己琢磨提示词,并且很难生成AIGC这么多文字,Midjourney的优势在于生成的图片质量比较高,设计感更强。

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v5.2

在广告营销、电商领域,AI商品图的应用越来越多,那么DALL·E3能生成可用的素材图吗?
我们先让Bing生成一只中式风格的、适合秋冬使用的手提包,看来它理解的中式是喜庆、刺绣、流苏。

换成传统与现代结合的新中式风格呢?果然变成了黑色、金色为主的皮质包包,不过还是保留了复杂的刺绣图案。即使要求装饰简约一点,Bing理解的中式风格依旧离不开刺绣。


而Midjourney生成的显然更素雅一些,背景也更简洁。

A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v5.2
如果想换个背景和场景,比如秀场上,一个优雅的女模特拿着这只包,那Bing暂时还做不到,会像前文一样重新根据描述生图。

最近推特上还流行一种DALL·E3的玩法,用来生成一些排列整体的Knolling摄影照片,如下图所示,一个主体周围有许多相关物品环绕,放置在干净的背景上。

X@chaseleantj
想生成类似的图片却不知道怎么写提示词, 没关系,直接问Bing就行了。

AI降低了创作的门槛,可以帮助我们把脑中的奇思妙想画出来,其随机性也扩宽了想象力的边界。因而,创意梗图一直是AI绘图领域的热门类型。
我们来开开脑洞,让Bing画一只巨大的猫咪爬在东方明珠电视塔上。

只有左下的一张比较符合要求,其他东方明珠塔的数量和造型都有些错误,而且猫咪看起来像是动画建模,不太真实。
Midjourney虽然画出了真实的猫,但地点不在东方明珠塔,大小比例也不对。

A giant cat climbing on the Oriental Pearl TV Tower --v5.2
下面我们再画一张最近的热门IP表情包,“Loopy正在上班”。

起初Bing不认识Loopy,理解成了古怪的、疯狂的意思。我们告诉Bing它来自韩国动画片《小企鹅Pororo》之后,Bing表示明白了,却把正在工作的主角换成了企鹅。




看来DALL·E3还缺乏对于最新流行的素材训练。如果换成更经典的IP,那么DALL·E3和Midjourney都能准确表现,并且DALL·E3还配上了文字“假装上班,正在摸鱼”。


A meme of Pikachu working at a computer --v5.2
最近AI绘画还流行一种模仿iPhone拍摄的恐怖照片风格,非常贴合万圣节的氛围,我们试试直接输入这一大段的描述。
提示词:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."

四张图片基本都满足要求,左上的皮卡丘有点怪可爱的。但是同样的提示词,Midjourney就不能完全理解,还是需要转换成“咒语”。


在OpenAI官方演示中,ChatGPT可以通过自然的对话生成一只想象中的刺猬,并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了,如果你有一个想法,可以让AI先帮忙扩写故事、描绘场景,然后根据自动生成的提示词画出完整作品。
以丑小鸭变天鹅的故事为例,我们要求Bing把这个过程以儿童绘本的形式画出来。



Bing虽然一口气生成了三个画面,的确有丑小鸭和白天鹅,是儿童绘本的形式,但是前后缺乏逻辑关系,情节呈现不完整,可能还是需要自己按照一个个情节依次引导生成。



Bing还可以重新创作一个新的故事,比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”,画出了它和邪恶厨师的战斗画面。真别说,故事梗概和画面都挺符合我的想象的,你觉得怎么样呢?


小结
通过以上测评,可以看到DALL·E3在搭载了ChatGPT后,可以完全用自然语言进行交流,在对话中绘图创作,不用复杂的提示工程,简短的提示词就能生成不错的图片,对抽象需求的理解能力也比较强,支持中文。不过文生图仍然是越详细的描述,输出越准确,这一点没有变。
DALLE·3和Midiourney等其他AI绘图产品相比,各有其优劣势:
在使用体验和交互上,DALLE·3的交互式绘图比较直观方便,降低了使用门槛,还能直接读懂大段文字自动作图。Midjourney目前主要在Discord平台上运行,需要在特定的频道里输入描述,不能文字交互。文心一言虽然也可以在网页上通过对话绘图,但缺少上下文理解,不能继续调整,目前一次只能生成一张图。

图源文心一言
在生成图片方面,DALL·E3的优势是能生成较为准确的文本,可能有错误,但其他AI绘画产品目前直接文生图得到的文字都难以辨认,需要借助微调模型上传参考文字再融合。DALL·E3默认生成1024*1024的正方形图片,适用范围较窄,而Midiourney可自定义多种尺寸,其他AI绘图产品基本都支持不同比例。
对于写实风格的图片,DALL·E3生成的人脸和手看起来可能失真,而Midiourney目前V5.2版本已经非常逼真了,Stable Diffusion也有超写实的人像模型。
另外,在Bing上要求修改图片的时候,Bing是根据对话修改提示语再输入DALL·E3进行生成,而不是直接修改已生成的图片,DALL·E3暂时还不能像Midjourney一样快速进行微调,包括扩图、修改局部细节,更不用说Stable Diffusion复杂的参数调整了。所以作为专业创作者的生产力工具而言,DALL·E3的实用性还不够强。
在安全问题上,DALL·E3的内容限制较为严格,拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像,比如要求画一张马斯克在火星上的照片,Bing显示无法创建。

根据OpenAI发布的DALL·E3的22页技术报告,ChatGPT会改写提示,包括删除公众人物的名字、将人物与特定属性联系起来,以及以通用方式书写品牌。OpenAI还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。

报告地址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf
同时,微软表示,为了保证用户通过Bing Image Creator创建的内容的安全性,已经在生成的图片中内置了,符合C2PA规范的数字水印,包含图片创立日期、出处等信息。人的肉眼无法看见这些水印,但AI能识别出来。
总之,OpenAI的DALL·E3现在加上了理解文字和图像的智慧大脑,我们可以把ChatGPT作为合作伙伴一起头脑风暴进行创作,无论是出于娱乐爱好或者专业需求。AI绘画模型正在不断进化,根据不同的用户需求和适用场景可以选择不同的工具,DALL·E3不会完全替代其他产品,但新的创作方式已经更进一步了。
种草笔记附购物链接必须标明广告 《互联网广告管理办法》5月1日实施
据澎湃新闻报道,上海市市场监督管理局近日表示,即将实施的《互联网广告管理办法》将于今年5月1日生效,其中明确规定“互联网广告应当具有可识别性,能够让消费者辨明其为广告”。例如,“种草笔记”这种通过知识介绍、体验分享、消费测评等形式来推销商品或服务的广告,必须显著标明“广告”并附加购物链接。站长网2023-04-27 14:03:570001Edge疑屏蔽百度搜索结果 双方暂未回应
1月29日,“百度Edge”事件引发微博热议,许多网友反映,Edge浏览器显示百度搜索结果存在风险,搜索结果出现“此网站不安全已被人投诉”的提示语,要查看详情,然后选择“仍要访问此不安全网站(不建议)”才能进入相关页面。经过测试发现,目前为止,相关问题还没有解决,在Edge浏览器上点击百度相关链接,所有页面都出现“红色”警告。百度和微软中国方面都表示不清楚情况,正在向业务部门询问了解情况。站长网2024-01-29 17:40:230000OpenAI竞争对手Mistral融资近5亿美元,估值达20亿美元,获英伟达和Salesforce支持
**划重点:**1.🌐MistralAI最终获得来自英伟达和Salesforce等投资者近5亿美元,估值达20亿美元。2.💼这轮融资将使Mistral成为OpenAI的强大竞争对手,得到业界巨头的支持,包括英伟达和Salesforce。3.📈此举突显人工智能领域的投资热潮,Mistral在全球商业市场引起关注。站长网2023-12-05 10:37:220000好莱坞演员罢工结束:协议确立人工智能对演员数字形象使用的新规范
在结束了长达118天的罢工后,根据最新的劳资协议,影视制作公司必须获得演员的许可才能在由人工智能(AI)生成的材料中使用他们的形象,并且每当屏幕上出现演员的数字替身时,都必须支付报酬。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-11-10 09:04:070001腾讯会议AI小助手上线 基于“混元”大模型打造
今天,腾讯公关总监张军激动地向公众宣布,腾讯会议AI小助手正式上线。他强调,这一创新应用代表了真正的大模型技术的力量。根据官方网站的详细介绍,这款AI小助手能够全面覆盖会议的各个环节。通过简洁自然的指令,它能够完成信息提取、内容分析、智能提醒等复杂任务,极大地提升了会议效率和信息流转速度。站长网2024-02-22 11:56:120000