阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频
**划重点:**
1. 🌐 **框架介绍:** DreaMoving是一种基于扩散模型的可控视频生成框架,基于图文就能制作高质量定制的人类跳舞视频视频。
2. 🔄 **架构解析:** 文中提出了Video ControlNet和Content Guider两大关键组件,分别负责运动控制和身份保留,可适用于各种风格化的扩散模型。
3. 🎬 **成果展示:** DreaMoving通过姿势序列和简单的内容描述,如文本和参考图像,生成高质量、高保真度的定制视频。
DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架,。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。
DreaMoving以其出色的扩散模型为基础,能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。
DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。
比如你“投喂”一张人像,以及一段prompt就能生成对应的视频,而且改变prompt,人物背景和身上的衣服也会跟着变化。
为实现这一目标,该技术引入了Video ControlNet和Content Guider两个关键组件。
Video ControlNet:这是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。
Content Guider:该组件负责将输入文本提示和外观表达,如人脸(衣物是可选的),转换为内容嵌入,实现跨注意力的传递。
值得一提的是,目前DreaMoving项目并没有开源代码。点击前往DreaMoving官网体验入口
项目网址:https://dreamoving.github.io/dreamoving/
论文网址:https://arxiv.org/abs/2312.05107
阿里云推出针对Llama 3系列模型限时免费训练、部署、推理服务
最近,Meta公司发布了全新的Llama3系列,而阿里云魔搭社区迅速响应,将这一系列的四款模型全部上架。今天,阿里云百炼大模型服务平台更是宣布,将提供针对Llama3系列的限时免费训练、部署和推理服务,旨在帮助企业和开发者利用这一强大工具,快速构建属于自己的专属大模型。站长网2024-04-22 10:44:380001斗鱼一哥“旭旭宝宝”跳槽抖音 昨晚首秀涨粉350万
昨晚20:00,曾经的斗鱼一哥、《DNF》游戏主播旭旭宝宝(本名任怡旭)在抖音开启直播首秀。开播前,其抖音粉丝500多万,截至发稿粉丝已经高达876万,涨粉超350万。观看人数10万,点赞量破5亿,人气全抖音第一。资料显示,旭旭宝宝”曾是地下城与勇士(DNF)项目电子竞技选手,曾于龙珠直播平台直播三年,2018年7月10日解约。于2018年7月16日正式加入斗鱼。站长网2023-08-19 15:37:5300010AI说唱“入侵”影视号:单条视频获赞200万,月涨粉50万
AI正在“入侵”影视号。手里翻找冻鱼精心的布局老漠却不言语脸上带笑意冻鱼抓在手里被它当成了武器看两人消失夜里……《狂飙》剧情被写成歌词,再配上“科目三”BGM的演唱,瞬间抓住网友的耳朵。可让很多人没想到的是,这首说唱并非真人演唱,而是由AI生成的。站长网2024-03-07 08:38:430002首个开源中文金融大模型来了!解释授信额度、计算收益率、决策参考样样通,来自度小满|附下载
金融行业正迎来大模型时代。近日,度小满正式发布千亿级中文对话大模型轩辕,集中文、金融、开源特色于一身。基于BLOOM-176B研发的轩辕大模型,在金融场景中的任务评测中,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。站长网2023-05-27 14:48:320000ImageReward奖励模型:让文本到图像合成更符合人类偏好
StableDiffusion等生成式AI模型在文本到图像合成方面越来越受欢迎。像CLIP或BLIP这样的文本图像评分方法可以评估模型生成的图像是否与文本提示匹配,但它们并不总是符合人类的偏好和感知。站长网2023-05-08 11:19:080006