突破性AI方法WHAM:精确有效地预测视频中3D人体运动
**划重点:**
1. 🌐 WHAM(World-grounded Humans with Accurate Motion)方法成功结合3D人体运动和视频背景,实现精准的全球坐标下3D人体运动重建。
2. 💡 该方法通过模型自由和基于模型的方法,利用深度学习技术,有效地从单眼视频中准确估计3D人体姿态和形状。
3. 🚀 WHAM在全球坐标系下取得了令人瞩目的成果,通过融合运动上下文和足地接触信息,最小化足滑动,提高国际协调性。
在最新的研究中,卡内基梅隆大学(CMU)和马克斯·普朗克智能系统研究所的研究人员共同发布了一项名为WHAM(World-grounded Humans with Accurate Motion)的创新性AI方法。这一方法在精准性和效率方面实现了从视频中准确估计3D人体运动的突破。
3D人体运动重建是一个复杂的过程,涉及准确捕捉和建模人体在三维空间中的运动。当处理由移动摄像机在现实世界环境中拍摄的视频时,这一任务变得更加具有挑战性,因为这些视频通常包含脚滑等问题。然而,CMU和马克斯·普朗克智能系统研究所的研究人员通过WHAM方法成功解决了这些挑战,实现了精准的3D人体运动重建。

从图像中恢复3D人体姿势和形状的两种方法:无模型和基于模型。它强调了在基于模型的方法中使用深度学习技术来估计统计身体模型的参数。现有的基于视频的3D人体姿势估计方法通过各种神经网络体系结构引入时间信息。一些方法使用额外的传感器,如惯性传感器,但它们可能会产生侵扰。WHAM通过有效地结合3D人体运动和视频上下文,利用先验知识,并在全球坐标系中准确重建3D人体活动而脱颖而出。

该研究解决了从单眼视频中准确估计3D人体姿势和形状的挑战,强调了全球坐标一致性、计算效率和真实足地接触。利用AMASS运动捕捉和视频数据集,WHAM结合了运动编码器-解码器网络,用于将2D关键点转换为3D姿势,具有用于时间线索的特征整合器,以及用于全局运动估计考虑足地接触的轨迹细化网络,提高了在非平面表面上的准确性。
WHAM采用单向RNN进行在线推断和精确的3D运动重建,具有用于上下文提取的运动编码器和用于SMPL参数、相机平移和足地接触概率的运动解码器。利用边界框归一化技术有助于运动上下文的提取。在人体网格恢复的预训练图像编码器通过特征整合器网络捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,而细化过程最小化足滑动。在合成AMASS数据上进行训练,WHAM在评估中优于现有方法。

WHAM超越了当前的最先进方法,在逐帧和基于视频的3D人体姿势和形状估计中表现出卓越的准确性。通过利用运动上下文和足地接触信息实现了精确的全球轨迹估计,最小化了足滑动,并提高了国际协调性。该方法整合了2D关键点和像素的特征,提高了3D人体运动重建的准确性。在野外基准测试中,WHAM在MPJPE、PA-MPJPE和PVE等指标上展现出卓越的性能。轨迹细化技术进一步提升了全局轨迹估计,并通过改善的误差指标证明了减少足滑动的效果。
总的来说,这项研究的主要观点可以总结为以下几点:
1. WHAM引入了一种结合3D人体运动和视频背景的开创性方法。
2. 该技术增强了3D人体姿势和形状的回归。
3. 该方法使用了一个全球轨迹估计框架,包括运动上下文和足地接触。
4. 该方法解决了足滑动的问题,并确保在非平面表面上准确跟踪3D运动。
5. WHAM的方法在包括3DPW、RICH和EMDB在内的多样化基准数据集上表现出色。
6. 该方法在全球坐标系中实现了高效的人体姿势和形状估计。
7. 该方法的特征整合和轨迹细化显著提高了运动和全局轨迹的准确性。
8. 通过深入的剖析研究,验证了该方法的准确性。
论文网址:https://arxiv.org/abs/2312.07531
项目网址:https://wham.is.tue.mpg.de/
Stability AI新文本到图像模型DeepFloyd IF 拥有深度文本理解能力
StabilityAI及其多模态AI研究实验室DeepFloyd宣布发布DeepFloydIF研究版,这是一种尖端的文本到图像级联像素扩散模型,并且可以智能地将文本集成到图像中该模型最初仅限于非商业、研究许可使用场景,但计划在未来发布开源版本。DeepFloydIF拥有几个显着的特点,包括:站长网2023-05-08 15:46:140000NVIDIA DGX Cloud现在可强化Genative AI训练
英伟达发布消息,NVIDIADGXCloud作为今年3月推出的一项人工智能超级计算服务,现在可以强化GenativeAI训练,它为企业提供了训练生成性人工智能和其他开创性应用所需的基础设施和软件的即时访问。站长网2023-07-26 10:52:180000麒麟合盛APUS发布自研千亿级多模态“AiLMe天燕大模型”
9月2日,人工智能企业APUS(麒麟合盛网络技术股份有限公司)公布了自主研发的千亿级多模态人工智能大模型“天燕大模型”,也被称为AiLMe大模型。据APUS介绍,天燕大模型具备对文本、图像、视频、音频的理解和生成能力,并且在国际权威测评C-Eval中取得了整体排名第三的好成绩。站长网2023-09-04 08:56:200001你还没搞懂 ChatGPT ,这些品牌已经用它做出好案例了
说起2023年最有可能改变世界的技术,ChatGPT必有一席之地。它在写作、绘画等领域展现出来创作能力令人惊叹,再一次掀起了“AI是否会取代人类”的讨论。刀法研究所认为,人类创造技术,是为了让技术为我们服务。ChatGPT和人类之间,不是替代关系。我们大可不必因为对未知的恐惧而抵触它,反而应该向它敞开怀抱。站长网2023-05-12 20:33:420003EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。主要功能与特点:站长网2024-04-18 17:10:100000