首页站长资讯体验当甲方的快乐！用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……

体验当甲方的快乐！用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……

站长网2023-10-12 17:48:173阅

*头图来源于DALL·E3，描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画，每一片树叶都演奏着传统的蓝草乐器，在乡村森林的背景中，点缀着丰收之月的柔光。

全自动画图神器来了!ChatGPT现在能直接出图了。

只需要告诉ChatGPT你想要一张什么图，ChatGPT就能直接帮你写好完整的描述词，给到DALL·E3生成图片。像这张混合星云爆炸的扣篮创意图，换成以往的AI绘图产品，一般都需要费力编写大段的“咒语”才能实现。

“一幅表现篮球运动员扣篮的油画，描绘的是星云的爆炸”，图源DALL·E3

DALL·E3是OpenAI最近推出的新版AI绘图模型，原生构建在ChatGPT之上，进一步降低了AI绘画门槛，用户可以在对话中将自己的想法转化成准确的图像，甚至还能画出正确的文字。

用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬，它应该长什么样子”，ChatGPT立马写了四段不同风格的提示词，并生成对应图像

“这幅插画描绘了一颗由半透明玻璃制成的人心，矗立在惊涛骇浪中的基座上。一缕阳光穿透云层，照亮了心脏，揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”，图源DALL·E3

目前只有一小部分ChatGPT Plus用户获得了内测资格。不过很快，与OpenAI深度合作的微软便将DALL·E3集成在浏览器Bing中，可供所有Bing Chat和Bing Image Creator用户免费使用。由于来尝鲜的用户太多，Bing最近流量激增，报道称微软又紧急增加了数千台服务器上线。

有了ChatGPT支持的DALL·E3真的像介绍的这么厉害吗?和Midjourney等其他AI绘画产品又有什么区别呢?“头号AI玩家”在Bing上对DALL·E3进行了一番测评。

p.s. 想要体验的玩家可以访问以下两个入口，登录微软账户即可使用，目前Bing Image Create每天有25次免费的快速生成额度，用完之后生成图片需要更长的时间。

Bing Image Create网址:https://cn.bing.com/create

Bing Chat网址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q

文章插图

内容创作者为了减少购买版权素材的成本，或者快速找到符合需求的图片，可能会试着用AI生成配图。

我们先用简短的提示词试试，输入“画一个招聘市场”，DALL·E3默认生成了四张1024*1024分辨率的图片，内容相似，都是拿着放大镜观察市场数据。

我们可以给出更详细的要求，比如“画一个现实里的招聘市场，人来人往，非常热闹”。不过DALL·E3理解错了现实里的意思，变成了插画风格，并写上了文字“Real Job Market”，部分图片的文字还出现了错误。

作为甲方，我们再次提出了修改意见——“人头攒动的招聘市场，写实摄影，不含文字，横屏”。可惜的是，DALL·E3给出的图比较抽象，虚实结合，还是出现了文字。

相比之下，同样的提示词，Midjourney的理解就比较准确了，满屏都是求职者。

Crowded recruitment market， realistic photography， no text --ar16:9--v5.2

换一个简单点的描述看看，“两个中国人在面试中”，这下DALL·E3的表现基本不错，只是交叉的手指都没处理好。

而Midjourney与DALL·E3的理解不同，认为是两个人在面对面对谈，四张图的人物、环境、风格差异都比较大，细节上比DALL·E3更真实一些。

Two Chinese people during the interview --ar16:9--v5.2

DALL·E3的特色在于能够在对话中生成图像，除了给出明确的提示词，我们还可以试着直接输入一段文字，要求生成符合文意的配图。

这段话讨论了非技术人员怎么跟上AI浪潮，语义复杂，并没有描述具体的人或事物，DALL·E3的结果令人惊喜，有一座富有科技感的未来城市和工作在其中的人们，也有许多人围绕着智慧大脑的脉络进行工作，从不同角度切中了文意。

我们试着在其中一张原图的基础上继续加入文字“AI”，但是DALL·E3重新生成了四张跟原图无关的图片，似乎不能直接修改已生成的图片，比如调整一些细节。

LOGO设计

既然有了ChaGPT支持，我们不妨让DALL·E3帮我们完善想法，自动生成详细提示，定制一张个性化的LOGO。

一开始Bing认为“头号AI玩家”与人工智能和游戏有关，所以设计的LOGO主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后，Bing以人工智能头像和数字1为主要元素重新设计了四张图。

第三张感觉更简洁一些，我们继续沟通修改。

可以看到，Bing能比较好地理解需求，但生成的文字有时不太准确，需要再后期修改。对比Midjourney，我们无法实现这样来回的沟通，只能自己琢磨提示词，并且很难生成AIGC这么多文字，Midjourney的优势在于生成的图片质量比较高，设计感更强。

The logo named after AIGC PLAYER， Purple， simple， technological sense， no complicated lines --v5.2

在广告营销、电商领域，AI商品图的应用越来越多，那么DALL·E3能生成可用的素材图吗?

我们先让Bing生成一只中式风格的、适合秋冬使用的手提包，看来它理解的中式是喜庆、刺绣、流苏。

换成传统与现代结合的新中式风格呢?果然变成了黑色、金色为主的皮质包包，不过还是保留了复杂的刺绣图案。即使要求装饰简约一点，Bing理解的中式风格依旧离不开刺绣。

而Midjourney生成的显然更素雅一些，背景也更简洁。

A new Chinese-style handbag that combines tradition and modernity for autumn and winter， with light and neutral colors and patterns --v5.2

如果想换个背景和场景，比如秀场上，一个优雅的女模特拿着这只包，那Bing暂时还做不到，会像前文一样重新根据描述生图。

最近推特上还流行一种DALL·E3的玩法，用来生成一些排列整体的Knolling摄影照片，如下图所示，一个主体周围有许多相关物品环绕，放置在干净的背景上。

X@chaseleantj

想生成类似的图片却不知道怎么写提示词，没关系，直接问Bing就行了。

AI降低了创作的门槛，可以帮助我们把脑中的奇思妙想画出来，其随机性也扩宽了想象力的边界。因而，创意梗图一直是AI绘图领域的热门类型。

我们来开开脑洞，让Bing画一只巨大的猫咪爬在东方明珠电视塔上。

只有左下的一张比较符合要求，其他东方明珠塔的数量和造型都有些错误，而且猫咪看起来像是动画建模，不太真实。

Midjourney虽然画出了真实的猫，但地点不在东方明珠塔，大小比例也不对。

A giant cat climbing on the Oriental Pearl TV Tower --v5.2

下面我们再画一张最近的热门IP表情包，“Loopy正在上班”。

起初Bing不认识Loopy，理解成了古怪的、疯狂的意思。我们告诉Bing它来自韩国动画片《小企鹅Pororo》之后，Bing表示明白了，却把正在工作的主角换成了企鹅。

看来DALL·E3还缺乏对于最新流行的素材训练。如果换成更经典的IP，那么DALL·E3和Midjourney都能准确表现，并且DALL·E3还配上了文字“假装上班，正在摸鱼”。

A meme of Pikachu working at a computer --v5.2

最近AI绘画还流行一种模仿iPhone拍摄的恐怖照片风格，非常贴合万圣节的氛围，我们试试直接输入这一大段的描述。

提示词:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog， and the scene is dimly lit."

四张图片基本都满足要求，左上的皮卡丘有点怪可爱的。但是同样的提示词，Midjourney就不能完全理解，还是需要转换成“咒语”。

在OpenAI官方演示中，ChatGPT可以通过自然的对话生成一只想象中的刺猬，并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了，如果你有一个想法，可以让AI先帮忙扩写故事、描绘场景，然后根据自动生成的提示词画出完整作品。

以丑小鸭变天鹅的故事为例，我们要求Bing把这个过程以儿童绘本的形式画出来。

Bing虽然一口气生成了三个画面，的确有丑小鸭和白天鹅，是儿童绘本的形式，但是前后缺乏逻辑关系，情节呈现不完整，可能还是需要自己按照一个个情节依次引导生成。

Bing还可以重新创作一个新的故事，比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”，画出了它和邪恶厨师的战斗画面。真别说，故事梗概和画面都挺符合我的想象的，你觉得怎么样呢?

小结

通过以上测评，可以看到DALL·E3在搭载了ChatGPT后，可以完全用自然语言进行交流，在对话中绘图创作，不用复杂的提示工程，简短的提示词就能生成不错的图片，对抽象需求的理解能力也比较强，支持中文。不过文生图仍然是越详细的描述，输出越准确，这一点没有变。

DALLE·3和Midiourney等其他AI绘图产品相比，各有其优劣势:

在使用体验和交互上，DALLE·3的交互式绘图比较直观方便，降低了使用门槛，还能直接读懂大段文字自动作图。Midjourney目前主要在Discord平台上运行，需要在特定的频道里输入描述，不能文字交互。文心一言虽然也可以在网页上通过对话绘图，但缺少上下文理解，不能继续调整，目前一次只能生成一张图。

图源文心一言

在生成图片方面，DALL·E3的优势是能生成较为准确的文本，可能有错误，但其他AI绘画产品目前直接文生图得到的文字都难以辨认，需要借助微调模型上传参考文字再融合。DALL·E3默认生成1024*1024的正方形图片，适用范围较窄，而Midiourney可自定义多种尺寸，其他AI绘图产品基本都支持不同比例。

对于写实风格的图片，DALL·E3生成的人脸和手看起来可能失真，而Midiourney目前V5.2版本已经非常逼真了，Stable Diffusion也有超写实的人像模型。

另外，在Bing上要求修改图片的时候，Bing是根据对话修改提示语再输入DALL·E3进行生成，而不是直接修改已生成的图片，DALL·E3暂时还不能像Midjourney一样快速进行微调，包括扩图、修改局部细节，更不用说Stable Diffusion复杂的参数调整了。所以作为专业创作者的生产力工具而言，DALL·E3的实用性还不够强。

在安全问题上，DALL·E3的内容限制较为严格，拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像，比如要求画一张马斯克在火星上的照片，Bing显示无法创建。

根据OpenAI发布的DALL·E3的22页技术报告，ChatGPT会改写提示，包括删除公众人物的名字、将人物与特定属性联系起来，以及以通用方式书写品牌。OpenAI还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。

报告地址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同时，微软表示，为了保证用户通过Bing Image Creator创建的内容的安全性，已经在生成的图片中内置了，符合C2PA规范的数字水印，包含图片创立日期、出处等信息。人的肉眼无法看见这些水印，但AI能识别出来。

总之，OpenAI的DALL·E3现在加上了理解文字和图像的智慧大脑，我们可以把ChatGPT作为合作伙伴一起头脑风暴进行创作，无论是出于娱乐爱好或者专业需求。AI绘画模型正在不断进化，根据不同的用户需求和适用场景可以选择不同的工具，DALL·E3不会完全替代其他产品，但新的创作方式已经更进一步了。

体验当甲方的快乐用嘴指挥DALLE 3设计LOGO做梗图画漫画

0003

评论列表

共(0)条

相关推荐

站长资讯
抖音下场做网文，小玩家还是吃不饱
“参加恋综节目，嘉宾让我滚出去，我冷笑着掏出房产证，这节目租的别墅是我的。”一段小游戏录屏或是解压视频，搭配上网文经典情节的音频，就能在抖音获得20多万的点赞。评论区中，无数意犹未尽的读者留言:“在哪看后续?”
站长网2023-04-12 15:33:30
0000
站长资讯
MIT和谷歌提出新AI框架Health-LLM:利用可穿戴传感器数据为健康预测任务调整LLM
划重点:1.🏥健康领域迎来革命性变革:可穿戴传感器技术不断监测生理数据，与大语言模型（LLMs）交叉，挑战在健康预测中的传统能力。2.🧠MIT和Google研究引入Health-LLM框架，通过可穿戴传感器数据调整LLMs，评估了包括GPT-3.5和GPT-4在内的八种LLMs在健康预测任务中的表现。
站长网2024-01-24 14:45:53
0000
8月份国产网络游戏版号下发 117款游戏过审获批
国家新闻出版署最新发布了2024年8月份的国产游戏版号审批结果，在本月的审批中，共有117款国产网络游戏获得了版号，涵盖了多家知名游戏公司的力作。在这批过审的游戏中，包括了鹰角网络的《明日方舟:终末地》、网易雷火的《界外狂潮》、阿里灵犀互娱的《荒原曙光》、金山软件的《此间山海》、完美世界的游戏《让野人飞》等。
站长网站长资讯2024-08-31 20:35:00
0000
站长资讯
LLM Guard：增强LLM安全性的开源工具包安全使用各种等模型
文章概要:1.LLMGuard是一个旨在增强大型语言模型（LLMs）安全性的工具包，可轻松集成和部署在生产环境中。2.它提供了广泛的评估器，用于LLMs的输入和输出，包括清理、检测有害语言和数据泄漏，以及防止注入和越狱攻击。3.该工具包旨在简化公司对LLMs的安全采用，通过提供一站式的必要工具，希望成为市场首选的开源安全工具包。
站长网2023-09-19 17:23:37
0003
不到4小时，谷歌Gemini写完10万字商业战略书籍！人类全程没碰一个字
【新智元导读】初创公司DeepWriter宣布:世界第一部完全由AI写作的10万字商业竞争书籍诞生了!全程没有人类参与工作，不到4小时，即可完成约10万单词的商业书籍创作。「文章本天成，妙手偶得之。」本来充满创意与想象的写作，LLM已经可以上手了。这次更是直接，LLM不光可以写文章了，大部头的书籍也要被拿下了?
站长网站长资讯2025-01-21 09:42:28
0000