微软推EgoGen:创新性3D数据合成模型 可生成丰富多模态数据
划重点:
1. 🚀 EgoGen是微软与苏黎世联邦理工学院合作推出的创新3D数据合成模型,解决第一人称视角训练数据生成的难题。
2. 🌟 该模型采用双阶段强化学习方案,通过高效的自我感知视觉代理和“注意”奖励,优化生成模型,使虚拟人物更自然、逼真地感知环境。
3. 📊 经过综合评估,EgoGen生成的高质量合成数据显著提升了在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等任务上的算法性能。
站长之家(ChinaZ.com) 2月23日 消息:微软近期推出的EgoGen引起了广泛关注,这是一项创新的3D数据合成模型,旨在应对第一人称视角训练数据生成中的各种挑战。随着AR、VR等设备的广泛应用,第一人称应用越发增多,但相关研发面临着图像模糊、视觉混乱、遮挡等问题,给视觉模型的训练带来了重大挑战。
为了解决这一问题,微软与苏黎世联邦理工学院的研究人员共同推出了EgoGen。该模型不仅具备高效的数据生成流程,而且适用于多个自我中心感知任务,例如能够生成用于恢复自我中心视角下人体网格的数据。
EgoGen的创新之处在于采用了双阶段强化学习方案来训练生成模型。在第一阶段,研究人员使用生成模型训练虚拟人物的行为,将身体运动和感知过程巧妙结合。关键点在于使虚拟人能够通过自我感知的视觉输入看到周围的环境,并通过学习控制一组避免碰撞的运动基元的策略来做出反应,进而合成多样化的人类动作。
为了提高训练的稳定性,EgoGen采用了高效的自我感知视觉代理和“注意”奖励。这一奖励机制在强化学习优化阶段发挥关键作用,通过引导奖励函数,使虚拟人物的运动更加自然和逼真。具体而言,当虚拟人物朝着期望的方向观察时,将获得“注意”奖励的正向反馈,鼓励其在感知任务中更加专注和准确。
经过强化学习优化,研究人员成功改进了生成模型,使虚拟人物能够以最佳方式感知环境、规避障碍并达到目的地。这一过程中,“注意”奖励的实现方式根据具体情况进行调整,确保虚拟人物的注意力与任务目标保持一致。
为了验证EgoGen方法的有效性,研究人员在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等三个第一人称感知任务上进行了综合评估。通过使用EgoGen生成的高质量合成数据,并提供精确的地面真实标注,已有算法在这些任务上的性能得到了显著增强。
EgoGen的推出标志着在解决第一人称视角训练数据生成难题方面迈出了重要一步,为AR、VR等领域的发展提供了有力支持。未来随着该模型的开源,相信将有更多的开发者参与其中,共同推动该领域的发展。
产品特色和亮点包括:
多模态数据生成: EgoGen能够生成丰富的多模态数据,包括逼真的RGB图像、带有模拟动态模糊的RGB图像、深度图、表面法线、分割蒙版以及在头戴设备广泛使用的鱼眼相机的世界位置等。
摄像机仿真: 该系统模拟了头戴设备上的摄像机配置,包括摄像机传感器的位置和角度。用户可以从摄像机佩戴者的视角进行渲染。
准确标注: EgoGen提供准确的注释,有助于训练深度学习模型。这对于主观感知任务中的监督学习至关重要。
可扩展性: 产品具备可扩展性,使其能够适应不同的主观感知任务和场景,提供了更灵活的数据生成解决方案。
论文地址:https://arxiv.org/abs/2401.08739
项目入口:https://top.aibase.com/tool/egogen
Apple Intelligence来了!将于10月28日随iOS 18.1推出
快科技10月7日消息,据名记古尔曼最新爆料,AppleIntelligence功能将于10月28日与iOS18.1一起推出。AppleIntelligence也是今年iOS18、iPhone16系列的最大亮点,画饼许久终于能够正式用上了。0000无锡与百度智能云合作 联合共建无锡城市政务大模型
9月25日,无锡市城运中心、市大数据集团与百度智能云联合签署战略合作协议,在签约仪式上,三方宣布将合作打造城市级政务大模型,进一步赋能治理数字化转型。据悉,9月5日,百度云智大会上百度智能云发布了基于大模型重构的数字政府解决方案“九州”及其背后的政务大模型原生产品体系。站长网2023-09-27 09:03:110000Redmi K70系列本月发布:标准版搭载骁龙8 Gen2 Pro版8Gen3
根据博主数码闲聊站的透露,RedmiK70标准版将搭载高通骁龙8Gen2芯片,而K70Pro则将搭载高通骁龙8Gen3芯片。这一策略与去年年底发布的K60系列相似,即标准版使用上一代骁龙平台,而Pro版则搭载最新平台。站长网2023-11-07 10:02:330000全网首测迪士尼Holotile: 360 度原地行走的VR魔法地板
迪士尼的黑科技地板Holotile在VR世界中实现了革命性的突破,提供了一种全新的沉浸式体验。最近,油管网红MKBHD成为全球首个对Holotile进行评测的人,他的十分钟评测视频播放量已破300万。Holotile的核心特点包括:360度无限行走:用户在Holotile上行走时,地板会通过自旋转的圆盘适应用户行走的速度和方向,实现无限循环行走。站长网2024-04-28 20:40:410000Transformer一作公司Adept发布多模态大模型Fuyu-8B 80亿参数,100毫秒极速响应
要点:1.Transformer一作AshishVaswani所在的AI公司Adept发布了Fuyu-8B,一个多模态大模型,拥有80亿参数,能够理解各种图像类型,包括照片、图表、PDF和界面UI。2.Fuyu-8B采用了一种纯解码器Transformer架构,不使用图像编码器,支持任意图像分辨率,表现在多项任务中优于其他大型模型。站长网2023-10-19 15:01:420000