当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩
如果你手机里有一些修图软件,你可能用过里面的「AI 绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:
这些动图来自 X 平台(原推特)网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输入了一个 AI 工具,很快就得到了动漫版的 MV。
这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个开源的基于图形界面的 Workflow 可视化引擎,用于被广泛采用的文生图 AI 模型 Stable Diffusion。它提供了一个用户友好的图形界面,可以将多个 Stable Diffusion 模型及其 Hypernetwork 组合成一个完整的工作流(Workflow)实现自动化的图像生成和优化。同时,社区也开发了各种 ComfyUI 的扩展插件,可以进一步增强其功能。
作者 @CoffeeVectors 表示,在制作这个 MV 的过程时,他在 ComfyUI 中用到了 AnimateDiff 和 multi-controlnet 工作流,前者用于动漫风格的生成,后者用来实现生成效果的控制。更重要的是,他在这次工作流中引入了一个当下很火的神器 ——LCM LoRA。
在《实时文生图速度提升5-10倍,清华 LCM/LCM-LoRA 爆火,浏览超百万、下载超20万》一文中,我们已经介绍过,LCM 是清华大学交叉信息研究院的研究者们构建的一个新模型,它的特点是文生图、图生图的效果都非常快,可以根据你的文字指令或草图指示实时生成新图。
在此基础上,研究者们又进一步开发了 LCM-LoRA,可以将 LCM 的快速生成能力在未经任何额外训练的情况下迁移到其他 LoRA 模型上。由于效果非常惊艳,模型在 Hugging Face 平台上的下载量已超20万次,X 平台上到处都能看到利用 LCM-LoRA 生成的实时视频效果(如下方的视频所示)。
机器之心机动组,赞90
那么,这个动漫版的 MV 是怎么做的呢?@CoffeeVectors 在帖子中详细描述了他的做法。
在下载了原版 MV 视频后,@CoffeeVectors 将 BLACKPINK 的整个 MV 作为单个 .mp4输入进行处理。LCM 可以让他在4090上通过6步进行渲染(之前需要20多步),而且只占用10.5GB 的 VRAM。以下是详细数据:
整个渲染过程耗时81分钟,共2,467帧,每帧大约花2秒。这不包括从视频中提取图像序列和生成 ControlNet 映射的时间。在 SD1.5版中使用 Zoe Depth 和 Canny ControlNets,分辨率为910x512。
要改进输出效果,使其风格更鲜明、细节更丰富、感觉不那么像一帧一帧的转描动画,就需要对单帧画面进行调整。但是,一次性完成整个视频,可以为你提供一个粗略的草稿,以便在此基础上进行迭代。
对于输入视频,他每隔一帧选取一帧,以达到12帧 / 秒的目标。
这是 @CoffeeVectors 添加 LCM LoRA 的截图。他选择了检查点中内置的 VAE:
他把提示写得很泛,想看看这个提示在各种镜头中的适配效果怎么样。
在 K 采样器中,他使用了 LCM 采样器。注意,你需要更新到最新版本的 ComfyUI 才能用这个采样器。
下图描述了 @CoffeeVectors 如何安排 multi-control net 的节点:
最后,@CoffeeVectors 还推荐了一些相关教程:
视频教程:https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24
技术博客:https://huggingface.co/blog/lcm_LoRA
对这类技术应用感兴趣的开发者们可以玩起来啦!
亚马逊开始测试 Agility 的 Digit 机器人进行仓储工作
要点:1.亚马逊开始测试Agility的Digit机器人以用于仓储工作,这是亚马逊对新兴技术的投资的一部分。Digit是一种双足机器人,可以在仓库内进行各种搬运工作,具有广阔的应用前景。2.亚马逊还与麻省理工学院(MIT)合作,研究机器人对就业的影响,这反映了自动化和机器人技术对劳动力市场的潜在挑战。站长网2023-10-19 10:05:570000刘强东送出近70万越野车!京东:路遇拍照可瓜分1亿京豆
在跨年夜,陕西西安的李女士成为了幸运儿,被刘强东赠送的越野车东风猛士M50大奖得主。这辆价值67.88万元的越野车近日已经从北京运往西安,引发网友热议。为了增强大家的参与感和感受大奖的喜悦,京东推出了一项特别的打卡活动。只要在路上遇到这辆越野车并拍照,打开京东APP搜索“京东汽车”,点击活动任务按钮,上传照片,即可获得抽奖机会。站长网2024-01-05 15:43:400000LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophicvalues)等问题,目前模型的上下文窗口大多不超过128k个token站长网2024-04-29 20:51:470000小米小爱同学“小爱你在哪”热词功能下线
近日,小米官方发布公告,由于产品策略变化,小爱同学的“小爱你在哪”热词功能将在小爱语音V6.7.3版本中正式下线。这个功能允许用户在找不到设备时通过大喊“小爱你在哪”来触发设备以最高亮度、最高音量和振动方式响应,以便快速找到设备。此次调整将带来一些具体变化:“小爱你在哪”热词功能设置入口将被下线,同时用户录制的唤醒词数据也将被清除。站长网2023-09-25 10:56:250000AI日报:SD3、SVD可以在Discord使用了;ElevenLabs Music发布;AI游戏让你无痛当爹;调光大师IC-Light ComfyUI节点发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、StabilityAI加入Discord用户可在线使用SD3、SVD功能站长网2024-05-11 08:35:370001