AI实时绘画系统StreamMultiDiffusion 支持局部涂抹+提示生成图片
近期,一篇名为"StreamMultiDiffusion"的论文提出了一种新颖的实时、交互式的文本到图像生成系统。这种系统能够根据用户提供的手绘区域和相应的语义文本提示来生成图像,为专业图像创作者提供了一个强大的工具,可以用于快速原型设计和创意探索。

项目地址:https://github.com/ironjr/StreamMultiDiffusion
扩散模型在文本到图像合成领域取得了巨大成功,成为了图像生成和编辑的有前途的候选者。然而,将这些模型用于实际应用仍面临两大挑战:一是需要更快的推理速度,二是需要更智能的模型控制。这两个目标需要同时满足,才能在实际应用中发挥作用。为了解决这些挑战,作者提出了StreamMultiDiffusion框架。
该框架是第一个实时基于区域的文本到图像生成框架。通过稳定快速推理技术并重构模型为新提出的多提示流批处理架构,实现了比现有解决方案更快的全景图生成速度,并在单个RTX2080Ti GPU上实现了基于区域的文本到图像合成的1.57FPS生成速度。
该框架引入了几种关键技术。首先是Latent Pre-Averaging,在推理的每个步骤中,先对中间潜在表示进行平均,以适应快速推理算法。其次是Mask-Centering Bootstrapping,在生成过程的前几步中,将每个遮罩的中心点对齐到图像中心,以确保对象不会被遮罩边缘切断。再次是Quantized Masks,通过量化遮罩来控制提示遮罩的紧密度,从而在不同噪声水平下平滑地融合生成区域。
此外,StreamMultiDiffusion还引入了一个名为Semantic Palette的新概念,这是一种交互式图像生成范式,允许用户通过手绘区域和文本提示实时生成高质量图像。这种方法类似于使用画笔在画布上绘制,但使用的是文本提示和遮罩。例如,用户可以在红色区域生成人物,在耳朵和尾巴区域标记为狗,系统会根据涂抹的区域生成长着狗狗耳朵和尾巴的人物。
论文中的实验结果表明,StreamMultiDiffusion在全景图生成和基于区域的文本到图像合成方面,相比于现有的MultiDiffusion方法,实现了显著的速度提升,同时保持了图像质量。这证明了该系统在实际应用中的巨大潜力和价值。
人工智能时代的智能手机:Brain.ai展示未来操作系统
近日,德国电信世界移动大会上,Brain.ai公司展示了其创新的操作系统,引发了对智能手机未来的广泛关注。这款操作系统以生成式人工智能为基础,将人工智能与硬件集成,为未来智能手机带来了全新的操作体验。站长网2024-03-01 11:18:110001任天堂预计本财年内 Switch 销量将进一步下滑至 1500 万台 同比下降 17%
日本任天堂(Nintendo)周二表示,预计其游戏机Switch在截至2024年3月的财年内销量将进一步下滑至1500万台,同比下降17%,这将是连续第三年的销量下滑。总部位于京都的任天堂承认,尽管供应链问题已经缓解,公司正在增强游戏阵容,但Switch的需求增长已经放缓。Switch已在市场上销售了七年。站长网2023-05-09 17:41:030000Voiceflow完成1500万美元融资,打造对话式AI协作平台
本文概要:1.Voiceflow是一家提供对话式人工智能代理协作平台的初创公司,最近宣布获得1500万美元的新融资。2.Voiceflow的协作平台类似于Figma,为团队提供一体化的低代码环境来设计、构建、测试和部署对话式人工智能代理。3.该公司已经与450家企业合作,用户数量超过13万,本轮融资总额达3500万美元,估值达到1.05亿美元。站长网2023-08-16 10:57:4400012020年最受欢迎的15种商业模式
不少电商平台卖家和提供SaaS效劳创始人以为,构建一个有助于尽可能多地产生收入的业务方式都是至关重要的。很多企业可能以为只需一个方法可以销售自己的产品,在本文中,将跟大家分享增加收入的不同方法和以及相关的案例分析。要记住,那些成功的公司通常会应用多种方式增加收入来源。站长网2020-04-27 14:24:4500012Stability AI 获得可转债支持 努力在高估值下筹集资金
据彭博社消息,知情人士透露,一直在努力以40亿美元的估值筹集资金的人工智能初创公司StabilityAI,从投资者那里获得了一笔可转换债券。站长网2023-06-29 15:59:410000