AI实时绘画系统StreamMultiDiffusion 支持局部涂抹+提示生成图片
近期,一篇名为"StreamMultiDiffusion"的论文提出了一种新颖的实时、交互式的文本到图像生成系统。这种系统能够根据用户提供的手绘区域和相应的语义文本提示来生成图像,为专业图像创作者提供了一个强大的工具,可以用于快速原型设计和创意探索。
项目地址:https://github.com/ironjr/StreamMultiDiffusion
扩散模型在文本到图像合成领域取得了巨大成功,成为了图像生成和编辑的有前途的候选者。然而,将这些模型用于实际应用仍面临两大挑战:一是需要更快的推理速度,二是需要更智能的模型控制。这两个目标需要同时满足,才能在实际应用中发挥作用。为了解决这些挑战,作者提出了StreamMultiDiffusion框架。
该框架是第一个实时基于区域的文本到图像生成框架。通过稳定快速推理技术并重构模型为新提出的多提示流批处理架构,实现了比现有解决方案更快的全景图生成速度,并在单个RTX2080Ti GPU上实现了基于区域的文本到图像合成的1.57FPS生成速度。
该框架引入了几种关键技术。首先是Latent Pre-Averaging,在推理的每个步骤中,先对中间潜在表示进行平均,以适应快速推理算法。其次是Mask-Centering Bootstrapping,在生成过程的前几步中,将每个遮罩的中心点对齐到图像中心,以确保对象不会被遮罩边缘切断。再次是Quantized Masks,通过量化遮罩来控制提示遮罩的紧密度,从而在不同噪声水平下平滑地融合生成区域。
此外,StreamMultiDiffusion还引入了一个名为Semantic Palette的新概念,这是一种交互式图像生成范式,允许用户通过手绘区域和文本提示实时生成高质量图像。这种方法类似于使用画笔在画布上绘制,但使用的是文本提示和遮罩。例如,用户可以在红色区域生成人物,在耳朵和尾巴区域标记为狗,系统会根据涂抹的区域生成长着狗狗耳朵和尾巴的人物。
论文中的实验结果表明,StreamMultiDiffusion在全景图生成和基于区域的文本到图像合成方面,相比于现有的MultiDiffusion方法,实现了显著的速度提升,同时保持了图像质量。这证明了该系统在实际应用中的巨大潜力和价值。
2000万粉丝卖不动货,问题出在哪?
又一位剧情号达人下场带货了。在抖音,粉丝数量1818.9万的剧情号大V“张若宇”,于4月21日开启了直播首秀。时至今日已经直播了16场。不过,据新抖数据显示,近30天内张若宇的带货总销量,仅为75-100万。平均一场仅5万左右的销售额,和其近2000万的粉丝数量比起来,并不可观,甚至还可以说有些寒碜。直播首秀站长网2023-05-29 09:08:340000薇娅拍短剧,和咪蒙抢生意?没那么简单
薇娅拍短剧,这是要和咪蒙杠上了?刚过去的618,薇娅旗下的蜜蜂惊喜社拍了短剧,叫《蜂总宠你的37日》,塑造一个霸总角色蜂总,疯狂发红包优惠券,给大促做预热。曾经是薇娅的女人薇娅宠,现在是蜂总的女人蜂总宠。剧情特别土特别尬,霸总用烂的梗全有。但是,这样的方式也算有点新鲜感,对吧。只是,作为短剧新手,剧情衔接和质感差了些,数据更是惨淡。但薇娅团队不得不做。站长网2024-06-25 15:18:420003谷歌洽谈向人工智能初创公司 Character.AI 投资「数亿美元」
据路透社报道,Alphabet旗下的谷歌正在与人工智能聊天机器人初创公司Character.AI进行谈判,计划投资数亿美元。这笔投资将加深Character.AI与谷歌现有的合作关系,Character.AI目前正在使用谷歌的云服务和张量处理单元(TPU)来训练模型。站长网2023-11-13 17:14:290000普华永道爱尔兰与微软合作开设新的生成式AI中心,促进技术的采用
划重点:-PwCIreland(普华永道爱尔)与微软合作,在都柏林开设新的生成型人工智能(GenAI)中心,旨在推动该项新技术的应用。-调查显示,爱尔兰企业在采用人工智能和生成型人工智能方面相对较慢。-PwC投资了超过10亿欧元来扩大和推动人工智能技术,以实现以人为主导、技术驱动的转型。站长网2023-11-20 14:47:480000腾讯牵头建成医疗影像国家新一代人工智能开放创新平台
腾讯牵头建成了医疗影像国家新一代人工智能开放创新平台,历时三年建设。这个平台支持多模态、多病种的SaaS服务,提供医疗影像数据的存储、统计、标注、人工智能模型训练和验证等全流程功能。平台已经服务超过4000个科研单位和用户,标注医学影像数据超过7万例。站长网2024-04-18 20:47:490000