比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作
划重点:
🔍 最新的对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足。
🔍 InstructAvatar 提供了对情感和面部动作进行细粒度控制的文本引导方法,为生成具有情感表达的2D 虚拟形象提供了改进的互动性和泛化能力。
🔍 实验结果表明,InstructAvatar 在细粒度情感控制、口型同步质量和自然性方面优于现有方法,能指定面部的表情和动作。
站长之家(ChinaZ.com) 5月28日 消息:最近,对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足,使生成的视频缺乏生动性和可控性。
因此,北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法,通过自然语言界面来控制虚拟形象的情感和面部动作,从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括:
通过自然语言输入控制头像的情绪和面部动作。
利用一个自动注释管道构建训练数据集,使得头像可以根据文本指令和音频进行生成。
生成的头像能够准确同步口型,表情自然且生动。
相比于现有方法,在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。
InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦,并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中,通过迭代去噪高斯噪声来获取预测的动作潜变量,并结合用户提供的肖像,使用 VAE 的解码器生成最终的视频。
通过与基线模型的定性比较,可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外,模型生成的结果具有增强的自然性,并有效地保留了身份特征。
值得一提的是,该模型仅基于文本输入推断说话的情感,这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围,超出了大多数基线模型的范围。
此外,该模型展现了精确的情感控制能力,并生成了自然的结果。InstructAvatar 具有细粒度的控制能力,并在领域之外的场景中表现出良好的泛化能力。
项目入口:https://top.aibase.com/tool/instructavatar
英伟达市值赶上苹果 仅差1000亿美元
5月28日,纳斯达克指数再次刷新历史纪录,上涨0.59%,成为当日市场的亮点。引领这一上涨潮流的,是科技行业的巨头英伟达。这家知名半导体公司的股价大幅上涨,市值一夜之间暴增了1.35万亿元人民币,达到惊人的2.81万亿美元。这一市值增长不仅让英伟达逼近了科技行业的领头羊苹果,更让外界对其CEO黄仁勋的财富增长充满了期待。站长网2024-05-29 19:25:170000微软承诺为 AI 生成的图像和视频添加水印以打击「深度伪造」
站长之家(ChinaZ.com)5月24日消息:微软近期一直忙于推出基于AI的软件和服务。今年3月,它正式发布了BingImageCreator,该工具允许用户只需几个文本提示就能创作艺术作品。4月,微软推出了MicrosoftDesigner的全面公开预览,该工具可以让用户通过文本提示和AI模型创建博客文章、网站等项目。站长网2023-05-24 09:15:4600002023年最后一个工作日 打车需求翻倍:滴滴上线免佣卡
滴滴出行在2023年的最后一个工作日发出提醒,预计今晚(12月29日)的晚高峰将提前至16点开始。根据滴滴的数据,元旦假期的打车需求预计将比去年同期上涨100%,而顺风车跨城出行的订单预计将上涨近220%。前往机场和火车站的需求也将比上周增加50%。0000谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
Gemini好像终于被玩坏了。去年年底,谷歌Gemini震撼了业界,它是谷歌「最大、最有能力和最通用」的AI系统,号称第一个原生多模态大模型,能力超越GPT-4,也被认为是谷歌反击微软和OpenAI的强大工具。站长网2024-02-27 09:05:220000百度发布小度学习机K16:搭载文心大模型 售价2299元
百度旗下人工智能语音助手小度正式发布小度学习机K16,K16是一款全面升级的学习机器人产品。目前,小度学习机K16已经在小度商城及各大电商平台开启预售,售价2299元。它具有以下几个方面的升级:站长网2024-01-09 09:08:110001