instaflow:利用校正流技术加快将文本转化为图像的过程
InstaFlow是一个快速、一步生成图像的模型,能够以接近Stable Diffusion的图像质量显著减少计算资源需求。这种高效率源自最近的Rectified Flow技术,它训练具有直线轨迹的概率流,因此本质上只需要一步即可进行快速推理。
项目地址:https://github.com/gnobitab/instaflow
InstaFlow具有几个优点:
极快推理:InstaFlow模型是一步生成器,它直接将噪声映射到图像,避免了弥散模型的多步采样。 在我们的A100GPU机器上,推理时间约为0.1秒,与原始Stable Diffusion相比可节省约90%的推理时间。
高质量:InstaFlow生成具有Stable Diffusion那样复杂细节的图像,在MS COCO2014数据集上的FID与最先进的文本到图像GAN(如StyleGAN-T)相当。
简单高效的训练:InstaFlow的训练过程只涉及有监督训练。 借助预训练的Stable Diffusion,仅需199个A100GPU天即可获得InstaFlow-0.9B。
方法:用文本调整的反流整流生成概率流
流程包括三个步骤:
1. 从预训练的Stable Diffusion生成(文本,噪声,图像)三元组
2. 应用文本调整的反流生成2-Rectified Flow,这是一条整流的生成概率流。
3. 从2-Rectified Flow中迁移学习得到一步InstaFlow。 注意迁移学习和反流是正交的技术。
如视频和图像所示,直线流具有以下优点:
1. 直线流需要更少的步骤来模拟。
2. 直线流在噪声分布和图像分布之间提供了更好的耦合,因此允许成功的迁移学习。
InstaFlow的核心功能有:
- 快速一步生成
- 与Stable Diffusion相当的图像质量
- 简单高效的训练过程
- 利用文本调整的反流产生直线概率流
- 从直线流中迁移学习以实现一步生成
通过直线流和迁移学习,InstaFlow实现了快速生成高质量图像的目标,是新一代文本到图像生成模型的杰出代表。
苹果Vision Pro的另一面:虚拟人3.0要爆发了
6月6日凌晨,苹果在WWDC2023发布的初代MR头显VisionPro引发行业热议,也重新点燃了XR行业的热情。相较于这款初代产品而言,由VisionPro引爆的“空间计算革命”,对科技产业影响将更加深远。空间计算爆发虚拟人成空间互联网核心节点站长网2023-06-13 20:03:510000微软出于安全考虑推迟推出 AI 功能「Recall」,将先在小范围内预览
站长之家(ChinaZ.com)6月15日消息:微软公司表示,他们将不会在下周发布的新电脑中推出「Recall」功能。这一功能利用人工智能技术跟踪计算机使用情况,但出于隐私风险的考虑,微软决定先在小范围内进行预览。Recall功能可以记录从网络浏览到语音聊天的所有历史,并将其存储在电脑上。用户在需要回忆几个月前做过的事情时,可以搜索这些历史记录。站长网2024-06-16 14:09:430001体验当甲方的快乐!用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……
*头图来源于DALL·E3,描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画,每一片树叶都演奏着传统的蓝草乐器,在乡村森林的背景中,点缀着丰收之月的柔光。全自动画图神器来了!ChatGPT现在能直接出图了。站长网2023-10-12 17:48:170003“沉迷”兼职的年轻人
刚刚过去的五一假期,有人被堵在路上,有人被挤在景区,还有一些年轻人,选择就地做兼职,错峰避人,还能赚点钱。今年的情况确实不同往日。疫情之后的第一次小长假,出游热达到了高峰,饭店、奶茶店、热门景点人手紧缺。另一边,兼职面向的是学生群体和部分待业人士,他们在兼职的同时,还能留在当地打打短工,错峰出游。0000公司监控员工键盘 49 天,18 年老员工被解雇:因为“打字不够”?
还记得两年前,在国内设计院圈子里,闹得沸沸扬扬的“设计师被监控上班摸鱼,遭某设计院直接开除”事件吗?当时,这张图片在网络上疯传,据说该设计院仅以其监控的“鼠标点击次数和键盘敲击次数”,就开除了这名员工。但后来,当事设计院声明称“未开发、未使用所谓的鼠标统计工具”,此事因此逐渐平息。站长网2023-08-11 09:09:230002