AnimatableDreamer:2D视频素材一键转换成4D动态立体模型
划重点:
- 🌟清华系初创公司生数科技联合高校推出全球首个基于「骨骼动画」的4D 动画生成框架「AnimatableDreamer」
- 🌟可将2D 视频素材一键转换成动态立体模型,并支持个性化角色生成
- 🌟研究团队通过规范得分蒸馏策略实现了文本到4D 骨骼动画的生成,将交互体验丰富化,推动内容生态发展
目前内容产业的数据积累在3D 模型和4D 动画等方面仍较为薄弱。为了满足即将到来的多维沉浸式体验,清华系创业团队生数科技近期联合清华大学、同济大学等高校推出了全球首个基于「骨骼动画」的4D 动画生成框架「AnimatableDreamer」。
这一框架能够直接将2D 视频素材一键转换成动态立体模型,同时支持通过文字输入进行个性化角色生成。简单的说,「AnimatableDreamer」的提出直接打通文本到4D 骨骼动画的生成,建模、贴图、骨骼绑定、动作驱动。输入自然语言描述,自动输出立体动画视频,普通人也能直接上手,轻松定制动画内容。以下为生成的动物模型:
传统的制作立体动画流程需要经过复杂的3D 建模、贴图渲染、骨骼绑定和动画制作等步骤,效率低且成本高昂。而「AnimatableDreamer」可以自动提取视频中目标对象的骨骼动作,并通过文本描述将该对象转换为任意的带骨骼动画模型。这一过程不受模版限制,支持任意视频长度和任意类型的动作,并且导出的动态立体模型能够在任意3D 环境中进行渲染。
该团队创新地提出了规范得分蒸馏策略(Canonical Score Distillation,简称 CSD),实现了文本到4D 骨骼动画的生成。通过在相机空间中对不同帧及不同视角的3D 模型进行渲染和降噪,并将梯度回传至规范空间中进行蒸馏,「AnimatableDreamer」能够生成具有高度时间一致性和几何合理性的模型。无论是在有限视角还是大幅度运动的场景中,该框架都能自动补全画面信息,实现较好的生成质量。
「AnimatableDreamer」的推出将大大降低3D、4D 数字内容的生产难度,丰富交互体验,并让每个人都能够进行创意内容的生成和编辑。未来,用户可以在虚拟世界中快速搭建自定义的数字空间,打造个性化的交互体验。而对于游戏开发和影视动画等领域的3D 建模和动画制作流程来说,这一技术有望带来更高的效率。
清华系创业团队生数科技在不到一年的时间里推出了多个产品,包括3D 资产创建工具 VoxCraft 和4D 骨骼动画生成框架「AnimatableDreamer」。这些技术的创新能力将为未来的多维数字体验和人机交互带来更多可能性,从而开启全新的内容娱乐与消费模式。
项目网址:https://top.aibase.com/tool/animatabledreamer
论文网址:https://arxiv.org/pdf/2312.03795.pdf
巴菲特的伯克希尔哈撒韦公司清仓印度支付巨头Paytm 总计亏损80亿卢比
巴菲特领导的伯克希尔哈撒韦公司通过一笔巨额交易退出了印度金融科技公司Paytm。根据交易所数据,伯克希尔哈撒韦以每股877.29卢比的价格出售了1560万股Paytm股票,相当于其股本的2.5%,价值近137亿卢比(约合1.64亿美元)。伯克希尔哈撒韦2018年开始投资Paytm,清仓后总计亏损80亿卢比。。站长网2023-11-25 14:10:040001制作人复盘:两个人研发两个月,突然就月入百万了
2023年快到年底,大环境遇冷和降本潮带来的影响还是没有好转的迹象。新品暴毙和收入下滑的大趋势中,不仅中小团队大量被淘汰,大厂体系下,裁员也成了常态。不可避免的,找工作、寻出路已经成为当下最现实的一道难关。前不久我们的话题投票里,能在被裁/失业后快速拿到新Offer的从业者占比为36%站长网2023-11-23 09:51:330000Voicemod 推出新功能,允许用户创建和分享自定义 AI 语音
站长之家(ChinaZ.com)12月2日消息:Voicemod是一款实时AI语音变换应用,现在允许任何人根据一系列预设的基础声音来创造他们想要的任何类型的声音。站长网2023-12-02 10:15:590000360智脑通过中国信通院可信AIGC大语言模型功能评估
360官方表示,360智脑成为国内首个通过信通院可信AIGC大模型评估的大模型产品。6月12日,360智脑的360GPT-S2-V8型号产品获得了中国信息通信研究院“可信AIGC大语言模型基础能力”评估报告,报告显示必选项目评估内容均通过。站长网2023-06-13 14:58:500000阿里开源新语音模型,比OpenAI的Whisper更好!
阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。例如,让一位女生说一段话,然后识别她的年纪或解读她的心情;发布一段吵闹的声音,分析有哪些声音组成等。站长网2024-08-10 18:02:280000