文本生成高清、连贯视频,谷歌推出时空扩散模型
谷歌研究人员推出了创新性文本生成视频模型——Lumiere。
与传统模型不同的是,Lumiere采用了一种时空扩散(Space-time)U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。
此外,Lumiere为了解决空间超分辨率级联模块,在整个视频的内存需求过大的难题,使用了Multidiffusion方法,同时可以对生成的视频质量、连贯性进行优化。
论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com
时空扩散U-Net架构
传统的U-Net是一种常用于图像分割任务的卷积神经网络架构,其特点是具有对称的编码器-解码器,能够在多个层次上捕获上下文信息,并且能够精确地定位图像中的对象。
而时空扩散U-Net是在时空维度上执行下采样和上采样操作,以便在紧凑的时空表示中生成视频。
下采样的目的是减小特征图的尺寸,同时增加特征图的通道数,以捕捉更丰富的特征。
上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小,同时减少通道数,以生成更细节的输出。
时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征,并逐渐减小特征图的尺寸。
池化层则通过降采样操作减小特征图的空间尺寸,同时保留重要的特征信息。通过逐步堆叠这些下采样模块,编码器可以逐渐提取出更高级别的抽象特征。
因此,Lumiere在时空扩散U-Net架构帮助下,能够一次生成80帧、16帧/秒(相当于5秒钟)的视频。并且与传统方法相比,这种架构显著增强了生成视频运动的整体连贯性。
Multidiffusion优化方法
Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算,并将结果整合为整个视频段的全局连贯解决方案。
具体来说,Multidiffusion通过将视频序列分割成多个时间窗口,每个时间窗口内进行空间超分辨率计算。
这样做的好处是,在每个时间窗口内进行计算可以减少内存需求,因为每个时间窗口的大小相对较小。同时,这种分割的方式也使得计算更加高效,并且能够更好地处理长视频序列。
在每个时间窗口内,Multidiffusion方法使用已经生成的低分辨率视频作为输入,通过空间超分辨率级联模块生成高分辨率的视频帧。
然后,通过引入扩散算法,将每个时间窗口的结果进行整合,形成整个视频段的全局连贯解决方案。
这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。
抖音直播店被关,加速自立门户,东方甄选成最大赢家?
在这场意外中,东方甄选化险为夷,成为唯一的赢家。触发平台规则,被关停东方甄选自营产品店铺后,东方甄选在几个小时内立马转战自家APP,以打折促销来吸引粉丝。三天时间,自营品的销售额超8000万。而东方甄选在抖音自营直播间一个月的GMV也才在2500-5000万之间。不仅没中断自营产品的销路,反而吸引了大批新用户。光7月28日这一天,就有超33万人下载东方甄选APP抢货。站长网2023-07-30 09:45:060000苹果正在开发自己的文本生成器 暂定名为Apple GPT
站长网2023-08-10 11:29:320000第一款基于 OpenAI 的 ChatGPT GPT-4 技术的冥想应用 Ogimi.ai:为用户提供个性化冥想体验
Ogimi是一款基于OpenAI的ChatGPTGPT-4技术的平台,提供引导冥想的课程。图片来自OgimiOgimi创始人DavidGull在接受媒体采访时表示:「Ogimi是第一款由AI引导的冥想教练。这意味着平台上的每个冥想都是根据用户的特定需求和个人成长实时生成的。」站长网2023-06-27 16:03:580000iPhone 欧洲用户可卸载Safari浏览器
根据苹果公司最近发布的合规文件,欧洲地区的iPhone用户将在2024年年底之前获得卸载Safari浏览器的选项。虽然苹果目前仍然允许用户在主屏幕上卸载多款预装应用程序,但该公司也计划在未来让用户完全删除Safari浏览器。这个功能预计会在2024年年底之前推出。尽管苹果公司在文档中并未提及该调整是否适用于其他地区,但有消息称这项更改可能仅限于欧洲市场。站长网2024-03-09 18:01:380002京东采销等一线员工涨薪近100%:欢迎回家 回家即加薪
据微信公众号“京东黑板报”报道,京东集团近日发布采销召集令,宣布自2024年1月1日起,在岗的京东采销等一线业务人员的年固定薪酬将大幅上涨近100%。这一消息的发布旨在欢迎采销兄弟回家,并确保回家后福利司龄继续累计。除了大幅加薪,京东还为采销人员提供了多项福利保障,包括司龄补贴、住房保障基金、继续教育、老员工专属称号以及员工救助基金等都将得到延续。0000