突破性AI方法WHAM:精确有效地预测视频中3D人体运动
**划重点:**
1. 🌐 WHAM(World-grounded Humans with Accurate Motion)方法成功结合3D人体运动和视频背景,实现精准的全球坐标下3D人体运动重建。
2. 💡 该方法通过模型自由和基于模型的方法,利用深度学习技术,有效地从单眼视频中准确估计3D人体姿态和形状。
3. 🚀 WHAM在全球坐标系下取得了令人瞩目的成果,通过融合运动上下文和足地接触信息,最小化足滑动,提高国际协调性。
在最新的研究中,卡内基梅隆大学(CMU)和马克斯·普朗克智能系统研究所的研究人员共同发布了一项名为WHAM(World-grounded Humans with Accurate Motion)的创新性AI方法。这一方法在精准性和效率方面实现了从视频中准确估计3D人体运动的突破。
3D人体运动重建是一个复杂的过程,涉及准确捕捉和建模人体在三维空间中的运动。当处理由移动摄像机在现实世界环境中拍摄的视频时,这一任务变得更加具有挑战性,因为这些视频通常包含脚滑等问题。然而,CMU和马克斯·普朗克智能系统研究所的研究人员通过WHAM方法成功解决了这些挑战,实现了精准的3D人体运动重建。
从图像中恢复3D人体姿势和形状的两种方法:无模型和基于模型。它强调了在基于模型的方法中使用深度学习技术来估计统计身体模型的参数。现有的基于视频的3D人体姿势估计方法通过各种神经网络体系结构引入时间信息。一些方法使用额外的传感器,如惯性传感器,但它们可能会产生侵扰。WHAM通过有效地结合3D人体运动和视频上下文,利用先验知识,并在全球坐标系中准确重建3D人体活动而脱颖而出。
该研究解决了从单眼视频中准确估计3D人体姿势和形状的挑战,强调了全球坐标一致性、计算效率和真实足地接触。利用AMASS运动捕捉和视频数据集,WHAM结合了运动编码器-解码器网络,用于将2D关键点转换为3D姿势,具有用于时间线索的特征整合器,以及用于全局运动估计考虑足地接触的轨迹细化网络,提高了在非平面表面上的准确性。
WHAM采用单向RNN进行在线推断和精确的3D运动重建,具有用于上下文提取的运动编码器和用于SMPL参数、相机平移和足地接触概率的运动解码器。利用边界框归一化技术有助于运动上下文的提取。在人体网格恢复的预训练图像编码器通过特征整合器网络捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,而细化过程最小化足滑动。在合成AMASS数据上进行训练,WHAM在评估中优于现有方法。
WHAM超越了当前的最先进方法,在逐帧和基于视频的3D人体姿势和形状估计中表现出卓越的准确性。通过利用运动上下文和足地接触信息实现了精确的全球轨迹估计,最小化了足滑动,并提高了国际协调性。该方法整合了2D关键点和像素的特征,提高了3D人体运动重建的准确性。在野外基准测试中,WHAM在MPJPE、PA-MPJPE和PVE等指标上展现出卓越的性能。轨迹细化技术进一步提升了全局轨迹估计,并通过改善的误差指标证明了减少足滑动的效果。
总的来说,这项研究的主要观点可以总结为以下几点:
1. WHAM引入了一种结合3D人体运动和视频背景的开创性方法。
2. 该技术增强了3D人体姿势和形状的回归。
3. 该方法使用了一个全球轨迹估计框架,包括运动上下文和足地接触。
4. 该方法解决了足滑动的问题,并确保在非平面表面上准确跟踪3D运动。
5. WHAM的方法在包括3DPW、RICH和EMDB在内的多样化基准数据集上表现出色。
6. 该方法在全球坐标系中实现了高效的人体姿势和形状估计。
7. 该方法的特征整合和轨迹细化显著提高了运动和全局轨迹的准确性。
8. 通过深入的剖析研究,验证了该方法的准确性。
论文网址:https://arxiv.org/abs/2312.07531
项目网址:https://wham.is.tue.mpg.de/
高效率、有结果地花钱,正成为直播电商生意增长的新关键
2023年,学会花钱对品牌、商家很重要。5月9日,在2023快手电商引力大会上,面对到场的千余电商品牌、商家,快手商业化内循环及流量业务负责人孔慧格外强调了商业化的增量价值。“我们想从商业化的角度思考,如何能够帮助品牌、商家激活行业增量,驱动经营增长。”站长网2023-05-12 14:00:560000微软推出用于生物医学的多模态 AI 助手
微软的研究人员展示了LLaVA-Med,这是一种用于生物医学的多模式AI助手,可以处理图像和文本。使用生物医学图像文本对应大型数据集来训练多模态AI模型。该数据集包括胸部X光、MRI、组织学、病理学和CT图像等。首先,该模型学习描述此类图像的内容以及重要的生物医学概念。然后,使用GPT-4生成的指令数据集对LLaVA-Med(生物医学的大型语言和视觉助手)进行训练。站长网2023-06-15 09:55:320001Vivaldi 浏览器通过伪装 User-Agent 实现对微软 Bing 聊天的支持
站长之家(ChinaZ.com)6月9日消息:Bing聊天是目前最热门的功能之一。这款由人工智能驱动的聊天机器人利用OpenAI的GPT-4和Bing来回答各种问题和提示。官方正式来说,只能通过MicrosoftEdge浏览器使用Bing聊天。然而,随着Vivaldi浏览器6.1版本的发布,情况有所改变。图片来自Vivaldi站长网2023-06-09 21:54:390001爽文短剧到底有多赚?到了横店我差点想入伙。
他,衣着寒酸,被众人鄙视,被妻子狂扇巴掌,被逐出家门。而今,三年之期已到,他不再隐忍。在大家惊诧下,他的真实身份被揭晓:龙王、修罗、战神、罗刹、药神、虎帅。。。称号包括且不限于以上六种。这就是2020年最火的短剧类型,赘婿。当年的歪嘴战神,靠耐克笑养活了一大票鬼畜区up,也让短剧这个概念彻底出圈。如今又是三年之期已到,短剧也已经摇身一变,成了最当红的炸子鸡。站长网2023-11-17 09:17:510001余承东否认“任正非下令禁止说”:谣言
快科技4月2日消息,遥遥领先”是余承东在华为发布会上常用的词汇,形容竞争对手与自家产品的差距。今日,词条任正非据传下禁令一句遥遥领先罚款一万”突然登上微博热搜,引起网友热议。事情起因是有媒体报道钛媒体创始人赵何娟发文称,据可靠消息说,任正非在华为内部给余承东下了禁令”,每再提一句遥遥领先”罚款一万。对此,元新闻”向余承东求证,余承东在微信上回复称系谣言。站长网2024-04-08 12:44:550002