Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了
Stable Diffusion3,它终于来了!

足足酝酿一年之多,相比上一代一共进化了三大能力。
来,直接上效果!
首先,是开挂的文字渲染能力。
且看这黑板上的粉笔字:
Go Big or Go Home(不成功便成仁),这个倒是杀气腾腾啊~

路牌、公交灯牌的霓虹效果:

还有刺绣上“勾”得快要看到针脚的“晚安”:

作品一摆出,网友就大呼:太精确了。

以至于有人表示:赶紧把中文也安排上啊。

其次,多主题提示能力直接拉满。
什么意思?你尽管一次性往提示词中塞入n多“元素”,Stable Diffusion3:漏一个算我输。
呐,仔细瞅下图,这里面就有“宇航员”、“穿着芭蕾舞裙的小猪”、“粉色雨伞”、“戴着礼帽的知更鸟”,角落里还有“Stable Diffusion”几个大字(可不是什么水印)。

有了这个能力,一幅作品你想多丰富就有多丰富。
最后,当属图像质量,再次进化了一个度。
光看前面这些图,就被冲击到有没有?!
而各种超清特写,那是再信手拈来不过的了。

心动吗?目前官方已开放排队名单,大伙可以前往官网申请。
咳咳,也不得不说,最近这AI圈可真是相当热闹啊。
有网友直呼,我的电脑已经Hold不住了……

Stable Diffusion3来了!
全新的Stable Diffusion效果有多好,再给大伙奉送一些。
当然,所有出图均来自官方,比如StabilityAI媒体负责人:


不得不说,文字效果实在最为吸人眼球,各种形式都能呈现得相当清楚和“应景”。

而看到上面这幅图,不得不想到“Midjourney尴尬亮相学术界:为生物学论文乱配图”一事——有了SD3之后,我们是不是可以制作非常专业的学术配图了?
除了这些,SD3的“酒精水墨画”也相当别出心裁:

动漫风格:
again,你可以在上面加清晰的文字了。

由于目前需要排队申请,大伙还不好实际测试摸底。
不过有机智的网友已经用相同的提示词喂给了Midjourney(v6.0)。
比如开头的那张“红苹果与黑板字”(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)
最终Midjourney给出的结果如下:


从这组对比来看,可以说是高下立判——SD3无论是文字拼写还是质量、色彩协调性等方面都更胜一筹。
官网入口:https://top.aibase.com/tool/stable-diffusion-3
技术方面,目前,模型可选择的参数范围在800M到8B。
详细的技术报告还未公布,官方目前只透露主要结合了扩散型transformer架构以及flow matching。
前者实际上同Sora一样,附上的技术论文正是22年William Peebles同谢赛宁合写的DiT。

DiT首次将Transformer与扩散模型结合到了一起,相关论文被ICCV2023录用为Oral论文。
在该研究中,研究者训练了潜在扩散模型,用对潜在 patch进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以Gflops衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。
而后者flow matching同样也是来自22年,由Meta AI以及魏茨曼科学研究所的科学家完成。

他们提出了基于连续归一化流(CNFs)的生成模型新范式,以及flow matching的概念,这是一种基于回归固定条件概率路径的矢量场的免模拟CNFs的方法。结果发现使用带有扩散路径的flow matching,可以训练出来的模型更稳健和稳定。
不过最近看了这么多视频生成进展,也有网友表示:

你觉得呢?
One More Thing
除此之外,也就在前一天,他们的视频产品Stable Video正式开放公测。
基于SVD1.1(Stable Video Diffusion1.1),人人可用。
主要支持文生视频和图生视频两个功能。

7分钟环游地球!ChatGPT开启时空传送门,输入地址一秒穿越
环游世界,或是很多人梦寐以求的人生。无奈,身为打工人,又有多少人能真正得偿所愿。惊喜的是,国外小哥NilsBakker就实现了「坐家」环球旅行。自己打造了一款超酷的「虚拟空间传送系统」,不花一分钱到天涯海角。「带我去荷兰的中心」,时空隧道打开,瞬间移动到荷兰第四大城市乌得勒支。下一站,德国新天鹅堡。坐落落于巴伐利亚阿尔卑斯山脚下的新天鹅堡,有如童话故事中的梦幻城堡。站长网2023-05-22 09:17:550000亚马逊正在为搜索构建人工智能驱动的类 ChatGPT「交互式对话体验」
亚马逊公司似乎也要加入聊天机器人的行列了。该公司发布了工作职位描述,表示正在「重新设计亚马逊搜索」并开发新的「交互式对话体验,帮助您找到产品问题的答案,进行产品比较,接收个性化的产品建议等等」,根据一位机器学习重点工程师的招聘列表。职位列表可在此处查看。0000百度网盘推出漫画头像AI生成功能
百度网盘在儿童节前夕,推出AI新功能——只需一张照片,即可瞬间将用户转变为童年动漫中的主角。想要体验这一神奇功能,用户只需打开百度网盘APP,在搜索栏中输入“漫画”,随后上传自己的照片。仅仅几秒钟后,系统便会自动将用户照片转化为风格独特的动漫人物照片,仿佛置身于精彩的动画世界。站长网2024-05-31 19:13:090000小米晋升两位高管:许斐、张剑慧升任集团副总裁
站长之家(ChinaZ.com)5月8日消息:今日,小米集团创始人、董事长雷军通过官方渠道宣布了两项重要人事任命,标志着小米在管理层上的新变化和新气象。许斐和张剑慧两位资深员工被正式晋升为集团副总裁,并分别兼任新的重要职务。站长网2024-05-09 15:05:520000GPT-4驱动的视频制作平台AiVideoSuite:可快速生成高质量视频
要点:1.AiVideoSuite是一个GPT-4驱动的视频制作平台,可以快速生成高质量的营销视频内容。2.它可以自动编写剧本,生成逼真的语音配音,创造各种样式的视频,适用于不同的营销渠道。3.AiVideoSuite帮助企业和创作者以具有成本效益和高效的方式大规模制作视频内容,从而提高参与度并打开新的机会。站长网2023-09-11 11:21:320000