视频生成模型 Zeroscope开源 免费无水印
据huggingface 页面显示,一款名为 Zeroscope_v2_576w 的视频生成模型现已开源。
Zeroscope_v2_576w 基于 Modelscope 打造,是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。并且提供更高的分辨率,没有 Shutterstock 水印,并且宽高比更接近16:9。
Zeroscope 具有两个组件: Zeroscope_v2567w,专为以576x320像素的分辨率快速创建内容以探索视频概念而设计。然后可以使用 Zeroscope_v2XL 将优质视频升级到1024x576的“高清”分辨率。
对于视频生成,该模型需要7.9GB 的 VRam(分辨率为576x320像素、帧速率为每秒30帧)和15.3GB 的 VRam(分辨率为1024x576像素、帧速率为每秒)。因此,较小的型号应该可以在许多标准显卡上运行。
Zeroscope 的训练涉及将偏移噪声应用于9,923个剪辑和29,769个标记帧,每个帧包含24帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微的失真。
训练期间引入的噪声增强了模型对数据分布的理解。因此,该模型可以生成更多样化的真实视频,并更有效地解释文本描述的变化。
根据拥有 Modelscope 经验的 Zeroscope 开发者“Cerspense”的说法,用24GB VRam 微调模型并不“超级困难”。他在微调过程中删除了 Modelscope 水印。
他将自己的模型描述为“旨在挑战 Gen-2”,即 Runway ML 提供的商业文本到视频模型。根据 Cespense 的说法,Zerscope 完全免费供公众使用。
目前,文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长,并且存在许多视觉缺陷。然而,图像人工智能模型最初面临类似的问题,但在几个月内就实现了照片级真实感。但与这些模型不同的是,视频生成无论是训练还是生成都需要消耗更多的资源。
谷歌已经推出了Phenaki 和 Imagen Video,这两种文本到视频模型能够生成高分辨率、更长、逻辑连贯的剪辑,尽管它们尚未发布。Meta 的Make-a-Video(文本转视频模型)也尚未发布。
目前,只有Runway 的 Gen-2已商用,并且现已在 iPhone 上提供。Zeroscope 标志着第一个高质量开源模型的出现。
微信鸿蒙原生版重磅升级:支持聊天记录迁移、名片/位置发送等
快科技10月26日消息,在华为HarmonyOSNEXT公测后,微信鸿蒙原生版火速推出,开启内测、应用尝鲜。当时仅提供了聊天、支付等基础功能,提供最基础的社交保障。据用户反馈,微信鸿蒙原生版1.0.0.46已经开始邀测,新增了大批功能,具体如下:1.支持鸿蒙与iOS/安卓设备间的聊天记录迁移2.增强聊天会话能力:支持位置、个人名片、文件等类型的消息、支持听筒模式、完善输入能力0000OpenAI首席执行官计划访问首尔寻找芯片合作伙伴
**划重点:**1.🇺🇸OpenAI首席执行官SamAltman计划访问首尔,与SK集团主席CheyTae-won会面,寻求半导体合作,减少对美国人工智能芯片领导者Nvidia的依赖。2.🤝Altman强烈愿意与国内芯片制造商合作,以开发人工智能加速器,并将在访问期间讨论与韩国半导体业界人士的人工智能芯片合作。站长网2024-01-22 16:09:280000NCSC、CISA 等国际机构发布新的 AI 安全指南
划重点:🔸英国国家网络安全中心(NCSC)、美国网络安全与基础设施安全局(CISA)和其他16个国家的国际机构发布了关于人工智能系统安全的新指南。🔸这些指南旨在帮助开发人员在设计、开发、部署和运营AI系统时,确保安全性成为其核心组成部分。🔸指南内容涵盖了AI系统开发生命周期的四个关键阶段:安全设计、安全开发、安全部署和安全运维。站长网2023-11-30 11:30:480001最近的AI视频,真成了CP党的“第一次工业革命”
最近可灵和luma的AI视频是真的火出圈了。甚至我在网上冲浪的时候,都能刷到不少画风新奇的作品。比如B站上,你一搜AI整活,全是。大多都还挺……魔幻的:容嬷嬷和紫薇大快朵颐、卢本伟吃屏幕,甚至还有些邪门的AI接吻视频。还有,经典的,华强卖瓜,但是AI版。够辣眼睛,也够好笑。刘华强和卖瓜摊主的CP,物理意义上的“相爱相杀”。站长网2024-07-12 14:22:570000OneChart:仅2亿参数,专门用于图表信息结构化提取
划重点:🔍提出了一种新的工具OneChart,旨在解决图表结构提取中的挑战。📊引入了一种辅助标记,通过它提升了数值部分的文本输出。🏆OneChart在图表结构提取任务中取得了最先进的性能表现。在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉-语言模型(LVLMs)也难以令人满意地处理此类任务。站长网2024-04-22 10:24:320000