Hugging Face文生成图模型aMUSEd 几秒钟内就能生成AI图像
划重点:
🔍 Hugging Face 推出的 aMUSEd 模型可以在几秒钟内生成图像,比其他竞争对手如 Stable Diffusion 更快。
🔍 aMUSEd 使用了一种轻量级的文本到图像模型,基于 Google 的 MUSE 模型。
🔍 aMUSEd 采用了 Masked Image Model (MIM) 架构,这种架构减少了推理步骤,提高了生成速度和可解释性。
AI 图像生成模型的一个最大问题就是速度:使用 ChatGPT 或 Stable Diffusion 生成一张图像可能需要几分钟的时间。甚至 Meta 首席执行官马克・扎克伯格在去年的 Meta Connect 大会上也抱怨了图像生成速度。
Hugging Face 团队正试图通过一款名为 aMUSEd 的新模型加快速度,该模型可以在短短几秒钟内生成图像。
这款轻量级的文本到图像模型基于谷歌的 MUSE 模型,参数规模约为8亿。aMUSEd 可以部署在移动设备等设备上。它的速度来自于它的构建方式。aMUSEd 采用了一种称为 Masked Image Model (MIM) 的架构,而不是 Stable Diffusion 和其他图像生成模型中的潜在扩散。
Hugging Face 团队表示,MIM 减少了推理步骤,从而提高了模型的生成速度和可解释性。而且它的小尺寸也使得它运行速度很快。

aMUSEd项目体验网址:https://top.aibase.com/tool/aamused
你可以通过 Hugging Face 上的演示来尝试 aMUSEd。该模型目前以研究预览版的形式提供,但使用 OpenRAIL 许可证,意味着可以进行实验或调整,同时也对商业适应性友好。
aMUSEd 生成的图像质量可以进一步提高,团队也公开承认了这一点,选择发布它以 “鼓励社区探索像 MIM 这样的非扩散框架用于图像生成”。
aMUSEd 模型可以进行零样本的图像修复,而 Stable Diffusion XL 无法做到,这是 Hugging Face 团队的说法。
关于如何在几秒钟内生成 AI 图像,aMUSEd 中的 MIM 方法类似于语言建模中使用的技术,将数据的某些部分隐藏(或屏蔽),模型学习预测这些隐藏部分。在 aMUSEd 的情况下,隐藏的是图像而不是文本。
在训练模型时,Hugging Face 团队使用一种名为 VQGAN(Vector Quantized Generative Adversarial Network)的工具,将输入图像转换为一系列标记。然后部分屏蔽图像标记,模型通过文本编码器基于未屏蔽部分和提示来预测屏蔽部分。在推理过程中,文本提示通过相同的文本编码器转换为模型理解的格式。aMUSEd 从一组随机屏蔽的标记开始,逐步完善图像。
在每一次完善过程中,模型预测图像的部分,保留其最自信的部分,并继续完善其余部分。经过一定步骤后,模型的预测通过 VQGAN 解码器处理,生成最终的图像。
aMUSEd 还可以在自定义数据集上进行微调。Hugging Face 展示了使用8位 Adam 优化器和 float16精度微调的模型,该过程使用了不到11GB 的 GPU VRAM。
可以在这里访问模型微调的训练脚本:
https://github.com/huggingface/diffusers/blob/main/examples/amused/train_amused.py
新加坡南洋理工大学出品!大规模视频分割数据集MeViS,自动识别视频动态主体
文章概要:1)MeVIS数据集包含2006段视频,强调目标物体的运动属性,不能仅从单帧识别。2)提出LMPM基准方法,利用语言理解和运动评估找到视频中语言描述的目标物体。3)研究为发展更高级的语言引导视频分割算法奠定基础。站长网2023-08-26 16:14:340000MiniGPT-4开源,一个具备图像对话能力的聊天机器人
MiniGPT-4是一个具有图像理解能力的开源聊天机器人,基于Vicuna-13BLLM和BLIP-2视觉语言模型。站长网2023-04-18 11:52:260001即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象
要点:1.OVIR-3D是一个开放词汇的3D实例检索系统,能够在没有对3D数据进行训练的情况下,从RGB-D视频和语言查询中返回排名的3D实例段。2.该系统通过将问题视为从语言引导的2D区域提议进行3D融合的问题,提供了一种直观而有效的解决方案,避免了由于缺乏足够种类的注释3D数据而难以直接训练开放词汇3D分割模型的问题。站长网2023-11-10 10:26:340002超过一半的投资者愿意采纳AI提供的投资建议
文章概要:1.超过半数投资者在某些情况下愿意接受人工智能提供的投资建议。2.老年投资者相比年轻投资者更倾向于接受人工智能提供的投资建议。3.只有很小一部分投资者愿意直接执行人工智能提供的建议,大多数投资者仍希望由人类投资顾问过目。最近一项调查显示,超过半数的投资者在某些情况下愿意接受人工智能系统提供的投资建议,只要这些建议能够由金融顾问过目。站长网2023-08-26 16:12:100000小米影像旗舰!曝小米15 Ultra将在1月登场
快科技11月23日消息,博主智慧皮卡丘爆料,小米15Ultra会在明年1月份发布。对比小米15Pro,小米15Ultra升级为徕卡四摄,根据曝光的信息,小米15Ultra后置采用环形镜头设计,潜望长焦位于环形镜头的右上角位置,其下方并排三颗摄像头。据悉,小米15Ultra配备5000万像素超大底主摄、5000万像素直立长焦、2亿像素潜望长焦以及5000万像素超广角。站长网2024-11-25 15:18:390000