AI绘图模型不会写字的难题,被阿里AnyText破解了
能准确写汉字的AI绘图工具,终于登场了!
包括中文在内一共支持四种语言,而且还能文字的位置还能任意指定。
从此,人们终于可以和AI绘图模型的“鬼画符”说再见了。
这款名为AnyText的绘图工具来自阿里巴巴,可以按照指定位置精准地向图中加入文字。
此前的绘图模型普遍无法准确地向图中添加文字,即便有也很难支持像中文这样结构复杂的文字。
而目前Anytext支持中英日韩四种语言,不仅字形准确,风格也可以与图片完美融合。
除了可以在绘制时加入文字,修改图片中已有的文字,甚至向其中加字也都不是问题。
究竟AnyText效果如何,我们也实际体验了一番。
各种风格轻松驾驭
官方在GitHub文档中提供了AnyText的部署教程,也可以在魔搭社区中体验。
此外还有网友制作了PyTorch笔记,可以在本地或Colab中一键部署,我们采用的也是这种方式。
AnyText支持中英文Prompt,不过从程序日志来看,中文提示词会被自动翻译成英文。
比如我们想让AnyText给马斯克换上一件白色T恤,让他来给量子位(QbitAI)打个call。
只需要输入提示词,然后设定文本的位置,然后直接运行就可以了。
如果需要调整尺寸等参数,可以将上方的菜单展开;如果不会操作,页面中还附有中英双语教程。
最终,在搭载V100的Colab上,AnyText用了10多秒绘制出了四张图片。
效果还是不错的,不论是图本身还是文字,看上去都没有什么破绽。
而且各种文字材质AnyText都能准确模仿,比如黑板上的粉笔字,甚至是传统书法……
街景中的文字,甚至是电商促销海报,都难不倒AnyText。
而且不仅是平面上各式各样的文字,立体风格同样也不在话下。
而其中的文本编辑功能,还可以修改已有图片中的文字,几乎不会留下破绽。
在测试当中,AnyText也是取得了不错的成绩——无论是中英文,准确度都显著高于ControlNet,FID误差也大幅减少。
此外,如果自行部署,还可以对字体进行自定义,只需准备好字体文件并对代码简单修改就可以了。
那么,研究人员是怎样让AnyText学会写字的呢?
文本渲染独立完成
AnyText是基于扩散模型开发的,主要分为两个模块,文字生成的过程是相对独立的。
这两个模块分别是隐空间辅助模块和文本嵌入模块。
其中,辅助模块对字形、文字位置和掩码这三种信息进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;
文本嵌入模块则将描述词中的语义部分与待生成文本部分解耦,使用图像编码模块单独提取字形信息后,再与语义信息做融合。
在实际工作过程中,嵌入的文本输送给绘图模块时被用星号代替,在嵌入空间预留位置并用符号填充。
然后文本嵌入模块得到的字形图像被输入预训练OCR模型,提取出字形特征,然后调整其维度并替换预留位置中的符号,得到新的序列。
最后,这个序列表示被输入到CLIP的文本编码器中,形成最终指导图像生成的指令。
这种“分而治之”的方式,既有助于文字的书写精度,也有利于提升文字与背景的一致性。
此外,AnyText还支持嵌入其他扩散模型,为之提供文本生成支持。
论文地址:
https://arxiv.org/abs/2311.03054
—完—
谷歌联合创始人布林重回公司工作 参与研发新AI系统
7月22日消息,据国外媒体报道,谷歌联合创始人谢尔盖・布林重回公司工作,参与研发公司新一代人工智能(AI)系统。外媒称,近几个月来,布林通常每周到谷歌加州办公室工作三到四天,与研究人员一起努力开发谷歌的下一个大型AI系统Gemini。布林每周都会召集谷歌员工讨论新的AI研究。布林去年年底曾在谷歌办公室参加过有关AI的会议,但现在他参与的频率和强度都有所提高。0004超逼真!普林斯顿大学推3D场景生成模型Infinigen
普林斯顿大学研究人员AlexanderRaistrick日前发布了一款名为“Infinigen”的开源AI模型,可以帮助人们生成逼真的3D场景。据了解,Infinigen是一款基于开源建模软件Blender的免费开源模型,能够通过随机数学规则生成一系列自然界的“植物、动物”场景,并且可以通过输入提示词来自定义地形,并添加“云、雨、雪、雷暴、天火”等自然现象。生成的场景例站长网2023-06-20 17:10:320002网购超长预售期引发吐槽 买家:衣服到货就过季了
11月22日消息,微博话题网购超长预售期引发吐槽”引发热议。据国内多家媒体报道,在电商平台上,设置7天、15天甚至30天预售期的女装店比比皆是。一位买家表示,冬天买的羽绒服春天才收到,已经过季了。还有买家说,适度预售等待可以理解,但如果等待过长就很难接受,如果质量、尺寸不合适,最终还得退货,白折腾一场。0002全球AI人才报告曝光:清华第三,北大第六!硅谷40万人大裁员,码农地狱级面试12场
【新智元导读】刚刚发布的AI人才报告显示,全世界的顶尖AI人才中,几乎每两人中就有一人是中国培养出的人才!开卷后,美国码农们也都被迫开启了地狱模式,为一个offer面试12场。就在刚刚,全球AI人才报告发布。全世界的顶尖AI人才中,由中国培养出的人才已经占到了近1/2!有趣的是,当这些人卷到美国后,当地程序员的日子,似乎是越来越难了。站长网2024-03-11 09:31:360000特朗普遇袭刷屏照片,版权是视觉中国的?视觉中国回应
这两天的一个大新闻——特朗普遭遇枪击。一时间,相关照片和视频在网络上疯传。其中,一组特朗普高举拳头,耳旁流血的照片更是颇具艺术感,并且被广泛传播。据了解,这组照片出自普利策新闻奖得主,美联社摄影记者埃文·武奇之手。一时间,埃文·武奇几乎被全世界关注和讨论,大家都知道那张经典照片是出自他手了。埃文·武奇也在自己的多个社交平台发布了他拍摄的特朗普遇袭相关照片。。站长网2024-07-15 16:45:360000