微软AI研究提出AI模型HMD-NeMo:可基于部分手部动作准确生成全身动作
**划重点:**
1. 🌐 微软Mixed Reality & AI Lab的研究人员提出HMD-NeMo,一种新的神经网络模型,能够在手部部分可见的情况下生成真实和准确的全身动作。
2. 🧠 HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token(TAMT),在实时和在线情景下操作,解决了虚拟现实中全身动作生成的挑战。
3. 🚀 该方法通过在Motion Controllers和Hand Tracking等场景下进行广泛评估,并在多个数据集上超越现有方法,展示了其在解决虚拟现实中生成全身动作的问题上的重要进展。
在混合现实场景中,生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备(HMDs),依赖有限的输入信号,如头部和手部的6自由度(DoF)。然而,最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而,它们普遍存在一个共同的限制,即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立,由于HMD的有限视野,导致手部部分可见。
来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo(HMD神经运动模型)。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行,适用于动态混合现实场景。
HMD-NeMo的核心是一种时空编码器,具有新颖的可调节时间蒙版令牌(TAMT)。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息,并使用变压器模型复杂地建模不同输入信号组件之间的关系。
研究纸提出了两种评估场景:Motion Controllers(MC),其中使用运动控制器跟踪手部,和Hand Tracking(HT),其中使用自我中心手部跟踪传感器跟踪手部。结果表明,HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中,即使手部可能完全或部分不在视野中,可调节时间蒙版token在维持时间连贯性方面表现出色。
该方法使用损失函数进行训练,考虑数据准确性、平滑度以及在SE(3)中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能,该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。
与运动控制场景中的最先进方法进行比较显示,HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外,通过跨数据集的评估,证明了该模型的泛化能力,在多个数据集上优于现有方法。
深入研究了不同组件的影响,包括TAMT模块在处理缺失手部观测方面的有效性。研究表明,HMD-NeMo的设计选择,如时空编码器,对其成功起到了重要作用。
HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性,以及出色的性能指标,使其成为该领域的开创性解决方案。
论文网址:https://www.microsoft.com/en-us/research/publication/hmd-nemo-online-3d-avatar-motion-generation-from-sparse-observations/
Midjourney V6版本预计今年发布 将实现质量飞跃
文章概要:1.MidjourneyCEODavidHolz承诺V6版本将带来更好的文本理解和图像生成,预计今年内发布。2.Midjourney计划分两个阶段推出Web版本,首先是更新的网站,然后是带有图像生成和社交功能的版本。3.Midjourney的路线图还包括3D和视频生成,Holz对3D生成特别乐观,认为它可以改善视频游戏图形。站长网2023-09-21 17:52:160000马斯克威胁将起诉微软涉嫌非法使用Twitter数据训练AI模型
特斯拉CEO马斯克在推特上威胁将起诉微软,指责其使用Twitter数据训练其人工智能模型。许多大科技公司正在开发最新的AI模型,需要大量数据进行训练,而拥有这些数据的人开始提出要求。像GPT这样的LLM需要数TB的数据用于训练,其中大部分数据是从Reddit、StackOverflow和Twitter等网站上收集的。站长网2023-04-20 10:25:310000真我12 Pro系列官宣:本月在美国拉斯维加斯发布
站长之家(ChinaZ.com)1月9日消息:realme徐起宣布,真我12Pro系列将于本月在美国拉斯维加斯正式亮相。这一消息引起了广泛关注,因为真我12Pro系列被视为realme的一款旗舰级新品。0000网易有道虚拟人口语私教Hi Echo上线开放下载 由子曰教育大模型提供支持
今天,有道推出的虚拟人口语私教HiEcho正式上线开放下载。这款产品提供了一对一的专属教练,让用户随时随地练习口语。教练能够根据学习者的个性化需求,引导进行多轮对话,并给出打分和优化建议。学习者可以在不同的对话场景和话题中进行练习,HiEcho支持自由对话,全方位评估口语水平。目前已覆盖8种对话场景、68个话题,并持续更新中。站长网2023-10-12 08:34:070000大湾区大模型黑马杀进C-Eval榜单前三 GS-LLM-Beta凭什么?
要点:共生矩阵的大模型GS-LLM-Beta在权威的中文基础模型评估指数C-Eval上击败众多巨头,杀入前三甲。共生矩阵团队过硬的算法积累是取得佳绩的关键,而不是资本。团队成员在大模型理论和工程方面都有非常深厚的积累。当前大模型市场存在很多噪音,但共生矩阵有信心突破技术瓶颈,引领中国的通用AI发展。站长网2023-08-26 10:25:220000