Hugging Face文生成图模型aMUSEd 几秒钟内就能生成AI图像
划重点:
🔍 Hugging Face 推出的 aMUSEd 模型可以在几秒钟内生成图像,比其他竞争对手如 Stable Diffusion 更快。
🔍 aMUSEd 使用了一种轻量级的文本到图像模型,基于 Google 的 MUSE 模型。
🔍 aMUSEd 采用了 Masked Image Model (MIM) 架构,这种架构减少了推理步骤,提高了生成速度和可解释性。
AI 图像生成模型的一个最大问题就是速度:使用 ChatGPT 或 Stable Diffusion 生成一张图像可能需要几分钟的时间。甚至 Meta 首席执行官马克・扎克伯格在去年的 Meta Connect 大会上也抱怨了图像生成速度。
Hugging Face 团队正试图通过一款名为 aMUSEd 的新模型加快速度,该模型可以在短短几秒钟内生成图像。
这款轻量级的文本到图像模型基于谷歌的 MUSE 模型,参数规模约为8亿。aMUSEd 可以部署在移动设备等设备上。它的速度来自于它的构建方式。aMUSEd 采用了一种称为 Masked Image Model (MIM) 的架构,而不是 Stable Diffusion 和其他图像生成模型中的潜在扩散。
Hugging Face 团队表示,MIM 减少了推理步骤,从而提高了模型的生成速度和可解释性。而且它的小尺寸也使得它运行速度很快。
aMUSEd项目体验网址:https://top.aibase.com/tool/aamused
你可以通过 Hugging Face 上的演示来尝试 aMUSEd。该模型目前以研究预览版的形式提供,但使用 OpenRAIL 许可证,意味着可以进行实验或调整,同时也对商业适应性友好。
aMUSEd 生成的图像质量可以进一步提高,团队也公开承认了这一点,选择发布它以 “鼓励社区探索像 MIM 这样的非扩散框架用于图像生成”。
aMUSEd 模型可以进行零样本的图像修复,而 Stable Diffusion XL 无法做到,这是 Hugging Face 团队的说法。
关于如何在几秒钟内生成 AI 图像,aMUSEd 中的 MIM 方法类似于语言建模中使用的技术,将数据的某些部分隐藏(或屏蔽),模型学习预测这些隐藏部分。在 aMUSEd 的情况下,隐藏的是图像而不是文本。
在训练模型时,Hugging Face 团队使用一种名为 VQGAN(Vector Quantized Generative Adversarial Network)的工具,将输入图像转换为一系列标记。然后部分屏蔽图像标记,模型通过文本编码器基于未屏蔽部分和提示来预测屏蔽部分。在推理过程中,文本提示通过相同的文本编码器转换为模型理解的格式。aMUSEd 从一组随机屏蔽的标记开始,逐步完善图像。
在每一次完善过程中,模型预测图像的部分,保留其最自信的部分,并继续完善其余部分。经过一定步骤后,模型的预测通过 VQGAN 解码器处理,生成最终的图像。
aMUSEd 还可以在自定义数据集上进行微调。Hugging Face 展示了使用8位 Adam 优化器和 float16精度微调的模型,该过程使用了不到11GB 的 GPU VRAM。
可以在这里访问模型微调的训练脚本:
https://github.com/huggingface/diffusers/blob/main/examples/amused/train_amused.py
华为新麒麟芯片将全线普及:高中低端全面采用 改写国产手机市场竞争格局
快科技10月29日消息,Canalys发布的最新数据显示,2023年第三季度,中国智能手机市场出货连续两个季度下跌平缓,同比下滑5%至6670万部。除了荣耀以18%的市场份额重返第一之外,另外一大看点就是,华为通过Mate60系列的发布,市场份额持续攀升,逐渐逼近头部厂商。站长网2023-10-29 10:24:400000OpenAI官宣Sam Altman回归担任CEO
OpenAI宣布,SamAltman正式回归OpenAI担任CEO,MiraMurati也将回到CTO职位。新的初始董事会将由BretTaylor(董事长)、LarrySummers和AdamD'Angelo组成。同时,Altman表达了对所有人的感谢,并表示对OpenAI实现使命的成功概率感到非常乐观。站长网2023-11-30 09:32:160000亚马逊吸引数千人试用其人工智能服务 与微软、谷歌展开竞争
站长之家(ChinaZ.com)7月27日消息:亚马逊的云计算部门已吸引数千家客户尝试其服务,与微软和谷歌在人工智能关键领域展开竞争,一位高管向路透社透露。该公司还在周三宣布了新的人工智能工具,包括一个用于构建更多对话式客户服务代理的计划、来自初创公司Cohere的技术访问以及一个用于在患者就诊后生成临床记录的医疗保健系统。站长网2023-07-27 10:12:230000摩根士丹利:如果英伟达是人工智能泡沫的代名词 那么它已接近顶峰
站长之家(ChinaZ.com)8月8日消息:摩根士丹利策略师表示,人工智能股票泡沫即将达到顶峰,他们指出英伟达公司今年股价上涨超过200%。站长网2023-08-08 10:26:060000AI视野:谷歌开源小参数大模型Gemma;李一舟AI课程小程序因违规被暂停服务;Sora AI视频生成器模板sorafm开源;字节跳动开发 SDXL-Lightning
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用谷歌开源Gemma:参数小、性能超越Llama2,可轻松在笔记本上运行【AiBase提要:】站长网2024-02-22 16:34:230001