可在图像中生成任意精准文本,支持中文!阿里开源AnyText
随着Midjourney、Stable Difusion等产品的出现,文生图像领域获得了巨大突破。但是想在图像中生成/嵌入精准的文本却比较困难。
经常会出现模糊、莫名其妙或错误的文本,尤其是对中文支持非常差,例如,生成一张印有“2024龙年吉祥”的春联图像,就连著名的文生图模型都很难精准生成。
由著名文生图模型生成:图像还行,提示词根本理解不了嵌入图像中的中文
为了解决这些难题阿里巴巴集团的研究人员开源了,多语言视觉文字生成与编辑模型——AnyText。
根据「AIGC开放社区」的实际使用体验,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。
由AnyText生成,完美理解中文提示词,同时可自定义文字出现的位置
值得一提的是,AnyText能以插件形式与其他开源扩散模型无缝集成,可全面强化其图像嵌入精准文本的能力。
开源地址:https://github.com/tyxsspa/AnyText
论文地址:https://arxiv.org/abs/2311.03054
在线demo:https://huggingface.co/spaces/modelscope/AnyText
AnyText测试界面,直观操作简单,可手动调节各种参数
AnyText支持中文、日文、韩文、英语等多种语言,可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员,提供高精准、自定义的文生图像服务。
AnyText技术架构
目前,开源的扩散模型在生成的图像中嵌入精准文本表现不佳,主要有3个原因:1)缺乏包含全面文本内容注释的大规模图像和文本配对数据集。现有的大规模图像扩散模型的训练数据集,如LAION-5B,缺乏手动注释或文本内容的OCR结果。
2)许多开源扩散模型使用的文本编码器,如CLIP文本编码器,采用基于词汇的分词器,无法直接访问字符级别的信息,导致对个别字符的敏感性降低。
3)大多数扩散模型的损失函数旨在提高整体图像生成质量,缺乏对文本区域的专门监督和优化。
针对上述难题,阿里的研究人员开发了AnyText模型和AnyWord-3M数据集。AnyText采用了文本控制的扩散流程,包括两个重要模块:辅助潜变量和文本嵌入。
辅助潜变量模块用于生成或编辑文本的潜在特征,作用是接受文本字形、位置和遮罩图像等输入,生成用于文本生成或编辑的潜在特征。
这些潜在特征在生成或编辑文本时起到辅助作用,帮助确保文本的准确性和一致性。
辅助潜变量使得AnyText能够在图像中,生成或编辑曲线或不规则区域的文本。这也就是说,即便想生成弯曲、不规则的字体也没问题!
文本嵌入模块利用OCR模型将笔画数据编码为嵌入向量,并与标记器生成的图像标题嵌入向量进行融合,从而生成与背景无缝融合的文本。
为了提高书写准确性,研究团队采用了文本控制的扩散损失和文本感知损失进行训练。
提升图像嵌入文本精准度
为了进一步提高生成文本的准确性,AnyText采用了文本控制扩散损失和文本感知损失进行训练。
文本控制扩散损失,用于控制生成的文本在指定位置和样式上的准确性。它通过比较生成文本与目标文本之间的差异,促使模型生成更准确、一致的文本。
文本感知损失,作用是进一步增强生成文本的准确性。它通过比较生成文本的特征表示与真实图像中相应区域的特征表示之间的差异,来衡量生成文本在视觉上的准确性。
AnyWord-3M数据集
这个数据集是提升AnyText文本能力的重要部分,一共包含了300万个图像-文本对,并提供了多种语言的OCR(光学字符识别)注释。
AnyWord-3M中出现的文本行超过900万行,字符和词汇数总量超过2亿。文本涵盖中文、英文、日文、韩文等语言。这是目前公开的规模最大,也是第一个专门用于文本生成任务的多语种数据集。
主要包含的数据集:悟空数据集的中文部分,这是哩哩哩实验室构建的数亿级中文跨模态数据集。AnyWord-3M从中筛选出约154万张图像。
LAION数据集的英文部分,由斯坦福大学等构建的大规模英文图像文字匹配数据集, AnyWord-3M选择了其中约140万张图像。
多个OCR识别数据集,包括文字定位和识别领域的标准数据集ArT、COCO-Text、RCTW等,提供了约10万张带标注的文本图像。
在获取这些源数据之后,AnyText研究人员还设计了严格的过滤规则,对图像和文本行进行过滤,确保训练数据的质量。
文本行过滤的规则非常细致,例如,文本行高最小30像素、文本识别置信度超过0.7等。
所以,AnyWord-3M吸取了多个数据集的精华中的精华,也是AnyText能力非常强悍的重要原因之一。
GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-5
【新智元导读】GPT-4越来越懂事了,这背后有着非常巧妙的「调教」策略。OpenAI最新发布的「模型规范」,给LLM列出了条条框框,即正确的行为方式。没想到,评论区一大片网友催更GPT-5。这周既没有GPT-5,也没有搜索引擎的发布,不过,OpenAI也是没闲着。这次,OpenAI可是又open了一回。先是揭秘了,大家一直揪着不放的「数据」问题。站长网2024-05-14 10:37:100000周鸿祎卖迈巴赫喊话国内友商送车 小鹏连夜把车送到360楼下
快科技4月18日消息,360董事长周鸿祎今日发布视频称,要卖掉陪伴9年的迈巴赫S600,换成国产智联网新能源汽车,体验新一代车的感觉。他还在视频中表示,国内做车的友商们谁愿意借这个机会,为他提供一辆体验用车,每天上下班用,自己也来者不拒。而在今日晚间,小鹏汽车官方喊话周鸿祎,称车已送到您公司楼下。站长网2024-04-19 09:51:2500001800万+粉李炮儿加入三只羊,疯狂小杨哥商业版图再扩张
7月中旬,千万粉丝达人@李炮儿,曾挑战到三只羊当一天老板,为后续的故事埋下伏笔。10月7日晚@疯狂小杨哥在直播中表示,会在沈阳开一家三只羊分公司,@李炮儿将出任沈阳三只羊公司的董事长,10月18日,三只羊集团沈阳公司隆重开业,@李炮儿也与小杨哥大杨哥一起参加了开业剪彩。站长网2023-10-25 09:21:370000Groq大模型推理芯片每秒500tokens超越GPU,喊话三年超过英伟达
划重点:1.Groq公司推出的大模型推理芯片,每秒500tokens的惊人速度超越了传统GPU,挑战谷歌TPU。2.该芯片由初创公司Groq研发,由谷歌TPU团队原班人马打造,推理速度提高10倍,成本降低十分之一,支持多种大模型。3.Groq的目标是在三年内超越英伟达,采用自创的LPU方案,克服计算密度和内存带宽瓶颈,实现18倍于云平台速度的推理性能。站长网2024-02-20 14:23:500000千亿短剧的付费“局中局”
又被下架了。近期,中国网络视听协会发布通报,短剧《老师不要跑》因剧情低俗,台词、画面、情节涉及严重软色情,该剧及其播出的小程序平台被全网下架。自从短剧(也称小程序剧,指单集时长在一到两分钟的微短剧)在去年一炮而红后,其背后的争议也没有断过。一面是它所代表的火热市场。“爆款短剧日入1亿”、“春节档破8亿”、“一对夫妻做短剧每月进账4亿多”等热搜不断,甚至其被预估将在2027年达到千亿市场规模。站长网2024-03-25 11:25:330000