华为发布图像生成模型PixArt-\Sigma 可直出4K图像
站长网2024-03-08 15:08:492阅
华为近日发布了一项名为 PixArt-\Sigma 的图像生成模型,该模型采用了 DiT 架构,可以直接生成4K 分辨率的图像。相比于其前身 PixArt-\alpha,PixArt-\Sigma 在图像保真度上有了明显的提升,并改善了与文本提示的一致性。
项目地址:https://top.aibase.com/tool/pixart
PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过整合更高质量的数据,从"较弱"的基线逐步演变为"较强"的模型,这个过程被称为"弱到强训练"。
PixArt-\Sigma 的进步主要体现在两个方面:高质量的训练数据和高效的 Token 压缩。PixArt-\Sigma 结合了更高质量的图像数据,配对更精确和详细的图像标题,同时在 DiT 框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,促进超高分辨率图像的生成。
由于这些改进,PixArt-\Sigma 以较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如 SDXL(26亿参数)和 SD Cascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma 能够生成4K 图像,为创建高分辨率海报和壁纸提供了支持,有效地增强了电影和游戏等行业中高质量视觉内容的制作。
0002
评论列表
共(0)条相关推荐
开源项目Open Interpreter:让AI在操作系统中自我复制
近日,一篇关于AI在操作系统中复制自己的文章引起了广泛关注。通过开源项目OpenInterpreter,AI实现了在操作系统级别启动自身副本的雏形。这一创新基于多模态大模型,通过截图分析屏幕内容,生成操作计划,并调用系统接口执行任务。这不仅是对任务执行能力的拓展,更是AI自我复制的一次重要尝试。项目地址:https://top.aibase.com/tool/open-interpreter站长网2024-01-16 14:31:400000硅谷“砸钱”造神,中国式AI能复制么?
一扫去年裁员、股价暴跌的阴霾,硅谷凭借AI正在以“盖茨比”式的姿态重新站到镁光灯下。据光锥智能不完全统计,180天里,硅谷在人工智能领域共完成了42起融资、拿下55%全球筹资金额。其中,8家人工智能明星独角兽公司拔地而起,平均轮次融资金额3.3亿美元。热钱从硅谷的天空撒下,美元堆起了新故事。站长网2023-08-02 09:03:250000一天200元,难找春节宠物喂养人
今年春节,过节的不只是人,还有宠物。对不少人来说,宠物是家庭的重要组成部分,一些养宠者甚至把宠物当成了自己的子女。“让宠物过个好年”,支撑起了春节期间宠物消费的火爆。不仅主人过年要吃年夜饭、贴春联,猫猫狗狗也同样被安排了过年的“仪式感”。在电商平台上,不少“宠物年夜饭”销量不菲。各种用面粉、肉类、水产制成的饺子、点心和菜肴,配上精美的礼盒包装,让许多网友惊呼“宠物吃得比人都好”。站长网2024-02-07 13:58:100000摩根大通:得益于人工智能可能带来生产率提高 经济「健康的非通胀增长」可能性正在上升
站长之家(ChinaZ.com)8月7日消息:摩根大通的首席经济学家上周五表示,该行不再预测今年美国会发生经济衰退,并且已经上调了对经济增长的估计,因为经济以「健康的速度」扩张。站长网2023-08-07 11:05:1500002023 年生成式 AI 进步的三大关键领域,为英伟达带来了丰厚的利润
OpenAI的首席执行官SamAltman承认,他对ChatGPT的流行感到惊讶,该聊天机器人在一年多前作为一个研究项目发布。OpenAI团队曾经花费了整个会议讨论是否值得将这个聊天机器人开放给公众。事实证明,OpenAI在2022年11月发布ChatGPT的决定成为了生成型人工智能的定义性时刻,并为2023年的投资热潮和大量新产品及服务的推出奠定了基础。0000