Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。
技术报告要点如下:
根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E3、Midjourney v6和 Ideogram v1。
报告提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer, 简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。
SD38B 大小的模型可以在 GTX409024G 显存上运行。此外,SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M 到8B。
SD3架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,他们为这两种模态使用了独立的权重集。通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。
SD3采用了矫正流 (Rectified Flow, 简称 RF) 的公式,在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。
他们还进行了扩展矫正流 Transformer 模型的研究,使用重新加权的 RF 公式和 MMDiT 主干网络,训练了一系列模型,其规模从15个 Transformer 块 (4.5亿参数) 到38个块 (80亿参数) 不等。
SD3还引入了灵活的文本编码器,通过在推理阶段移除内存密集型的 T5文本编码器(参数量高达47亿),SD3的内存占用可以大幅降低,而性能损失却很小。
总的来说,Stability AI 的这一技术报告揭示了 SD3的强大功能和细节,显示出其在图片生成领域的领先地位。
详细内容点此查看:https://stability.ai/news/stable-diffusion-3-research-paper
AI进内娱,群众不答应?(内含福利)
相较于AI翻唱、AI换脸、AI智能体等在二创领域的风生水起,随着近期AI明确宣告进入专业创作领域,却引起了一连串意料之中和意料之外的群众反弹。如果AI内部也开组织扩大会议,应该也要说一句:改革进入深水区。站长网2024-08-02 17:51:280000抖音上的加盟热:创始人IP、流量闭环、小店模型
「81年(生),没啥特长,就会点手艺,在郑州做酸奶甜品,一干就是11年。只要你不嫌弃,叫声师傅我教你」。抖音账号@满米酸奶总部的一则短视频里,加盟品牌「满米酸奶」的创始人王晓丰穿着员工服在门店里亲自打酸奶,店内人头攒动。配文如上。视频意在吸引加盟商。它一来展示了王晓丰作为品牌创始人可靠且具有亲和力的形象,二来展示着门店的火爆程度。站长网2023-04-20 11:50:510007颠覆传统认知!科学家提出对银河系旋臂形态的新认识
近期,中国科学院紫金山天文台徐烨研究团队与中国科学院国家天文台合作提出对银河系旋臂形态的新认识:银河系更像是一个普通多旋臂星系,由内部对称两旋臂和外部多条不规则旋臂组成,而非之前被广泛接受的四条旋臂均从内到外的特殊形态。该研究结果改变了人们对银河系旋臂结构的传统认识。图1:重新绘制的银河系旋臂结构鸟瞰图。其中彩色线条表示脉泽示踪的旋臂,黑色线条表示年轻恒星和疏散星团示踪的太阳附近的旋臂段。站长网2023-05-24 05:35:580000谷歌发布人工智能笔记应用 NotebookLM:基于源文档私人专属 AI
Google今天推出了一款名为GoogleNotebookLM的新产品,这是他们第三款笔记应用,继2008年至2012年的GoogleNotebook和2013年至今的GoogleKeep之后推出的。GoogleNotebookLM网站截图站长网2023-07-13 21:47:390003蔚来发布2023年四季度及全年财报:全年营收556.2亿元再创历史新高
快科技3月5日消息,蔚来发布2023年四季度及全年财报。财报显示,蔚来2023年全年营收556.2亿元,同比增长12.9%,再创历史新高。全年交付160,038台,同比增长30.7%。其中,第四季度共交付50,045台,同比增长25%。全年研发投入134.3亿元,连续两年突破百亿元。第四季度研发费用39.7亿元,连续5个季度超30亿元。0000