Meta重磅推出Ego-Exo4D:视频学习与多模态感知研究的基础数据集
划重点:
🧠 多模态学习工具发布: Meta发布Ego-Exo4D,这是一个支持视频学习与多模态感知研究的基础数据集和基准套件,旨在为广大研究社区提供探索自我与外界视频、多模态活动识别等工具。
🌍 协作研究背景: 该数据集是Meta FAIR(基础人工智能研究)、Project Aria,以及15所大学合作两年努力的成果。
🤖 面向未来的AI应用: Ego-Exo4D不仅是最大的公共同步时间的第一人称和第三人称视频数据集,还提供多模态数据,包括音频、惯性测量单元、广角灰度摄像头等。
Meta最近宣布推出Ego-Exo4D,这是一项具有重大影响的举措,为视频学习和多模态感知研究提供了一套基础数据集和基准套件。该数据集是Meta FAIR(基础人工智能研究)与Project Aria以及15所大学两年合作努力的结晶。
Ego-Exo4D的独特之处在于同时捕捉了参与者佩戴的可穿戴相机的第一人称“自我的”视角和周围相机的多个“外界”视角。这两个视角是互补的,第一人称视角展示了参与者所见和所听,而外界视角则展示了周围环境和上下文。这为AI模型提供了一个窗口,窥视复杂人类技能的奥秘。
通过FAIR和大学合作伙伴的联合努力,Ego-Exo4D捕捉了来自美国、日本、哥伦比亚、新加坡、印度和加拿大的800多位熟练参与者的视角。该联合体计划于十二月份开源数据,包括超过1,400小时的视频和用于新奇基准任务的标注。明年,他们计划举办首个公开基准挑战,并发布自我与外界理解的基准模型。
Ego-Exo4D的关注点是熟练的人类活动,如运动、音乐、烹饪、舞蹈和自行车修理。通过对人类技能在视频中的理解的进步,可以促使许多应用的发展。例如,在未来的增强现实(AR)系统中,戴着智能眼镜的人可以通过虚拟AI教练迅速掌握新技能;在机器人学习中,机器人观看其环境中的人们可以通过较少的实际经验获得新的灵巧操作技能;在社交网络中,新的社群可以根据人们在视频中分享他们的专业知识和互补技能而形成。
然而,实现这一潜力在今天的数据集和学习范式下并不可能。现有的包含自我和外界视角(即自我-外界)的数据集很少,规模小,缺乏跨相机的同步,或者过于策划或编辑以抵御现实世界的多样性。因此,目前关于活动理解的文献主要只涵盖自我或外界视角,无法在第一人称和第三人称视角之间流畅切换。
Ego-Exo4D构成了最大的公共同步时间的第一人称和第三人称视频数据集。构建这个数据集需要招募跨足不同领域的专业人士,汇集多样的群体共同创建多方面的AI数据集。所有情景都涉及现实世界的专业人士,相机佩戴者参与者在所展示的技能方面具有特定的资格、培训或专业知识。例如,Ego-Exo4D相机佩戴者包括职业和大学运动员;爵士、萨尔萨和中国民间舞蹈者和教练;竞技攀岩者;在工业规模厨房工作的专业厨师;以及每天服务数十辆自行车的自行车技师。
Ego-Exo4D不仅是多视图,还是多模态的。使用Meta独特的Aria眼镜拍摄,所有自我视频都伴随着与时间对齐的七通道音频、惯性测量单元(IMU)和两个广角灰度摄像头等多种传感器。所有数据序列还通过Project Aria的先进机器感知服务提供了眼球注视、头部姿势和环境的3D点云。
此外,Ego-Exo4D提供了多种新的视频语言资源:
相机佩戴者描述自己行动的第一人称叙述。对每位相机佩戴者行动进行的第三人称实况描述。对视频进行评论的第三人称口头专家评论。他们是具有特定领域专业知识的52名教练和老师,根据相机佩戴者的表现提供建议和评论。
所有这三种语言资源都与视频时间戳匹配。通过这些新颖的视频语言资源,AI模型可以了解熟练的人类活动的微妙方面。据我们所知,以前没有任何具有如此广泛且高质量的多模态数据的视频资源。
除了数据之外,他们还为自我-外界视频的基础任务提供了基准,以推动社区的努力。
他们提出了四个任务:
自我(-外界)识别:从自我(和/或可选的外界)视频中识别过程活动的微观关键步骤及其结构,即使在能量受限的情况下也可以。自我(-外界)熟练估计:推断一个人执行技能的程度。自我-外界关系:通过估计语义对应关系和转换视点,将老师(外界)的动作与学习者(自我)的动作相关联。自我姿势:仅从单眼自我视频中恢复专业人士的熟练动作,即3D身体和手势姿势。
他们为每个任务的培训和测试提供了高质量的标注,这是超过20万小时的标注员努力的结果。为了启动这些新挑战的工作,他们还制定了基准模型并报告了它们的结果。他们计划在2024年举办首个公开基准挑战。
Ego4D联合体是FAIR与全球十几所大学之间的长期合作。在2021年发布Ego4D之后,这支由专家教职员、研究生和工业研究人员组成的团队重新启动,推出了Ego-Exo4D项目。该联合体的优势既在于其集体的AI才能,也在于其地理广度,可以在各种视觉环境中记录数据。
Ego-Exo4D包括来自六个国家和七个美国州的视频,为AI开发提供了多样化的资源。联合体成员和FAIR研究人员在整个项目中进行了协作,从制定倡议范围,到收集数据集的独特组成部分,再到制定基准任务。该项目还标志着Aria眼镜在学术研究社区的单一最大协调部署,涉及12个不同地点的合作伙伴使用了这些眼镜。
通过发布这一规模和多样性前所未有的资源,该联合体旨在为视频学习中的核心AI挑战提供支持。随着这一研究方向的发展,他们设想未来的AI将使人们在增强现实和混合现实(AR/MR)中学习新技能的方式发生变革,如何视频在用户面前栩栩如生,系统充当虚拟教练,引导他们完成新的程序并提供建议以改进。同样,他们希望它将使未来的机器人通过观察熟练的人类专家获得复杂的灵巧操作洞察。Ego-Exo4D是实现这一未来的关键一步,他们迫不及待地期待看到研究社区如何应用它。
雷军回应李想说要送车:感谢心意 还是决定买一台支持
今日,雷军在微博中表达了对李想心意的感激,但同时强调,他仍决定购买一辆理想L6Max来亲自体验并表达他对这款产品的支持。此前,雷军曾在社交平台上发布视频,对理想L6在北京车展上的表现赞不绝口。他更是设定了一个挑战,表示如果这条视频的点赞量能够超过50万,他就将购买一辆理想L6。结果,这条视频的点赞量不仅突破了50万,更是达到了70万,足见公众对雷军和理想L6的关注度之高。站长网2024-04-28 20:40:420000GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测
GPT-4太吃算力,微软被爆内部制定了PlanB,训练更小、成本更低的模型,进而摆脱OpenAI。GPT-4太吃算力,连微软也顶不住了!今年,无数场微软AI大会上,CEO纳德拉台前激动地官宣,将GPT-4、DALL·E3整合到微软「全家桶」。微软全系产品已被OpenAI的模型重塑,愿景是让AI成为每个人的生活伴侣。然而在幕后,因GPT-4运行成本太高,微软却悄悄地搞起了planB。站长网2023-09-27 14:30:470000用短剧带货,闷声发大财
机不可失。火爆的短剧,被电商平台盯上在主播带货逐渐降温的情况下,短剧带货成为了香饽饽。电商直播发展到现在,达人主播的带货优势见底,难以寻求更大的增量。最明显的表现是今年的618,虽然达人主播的带货量依旧居带货榜榜首,但相比去年来说,带货销量和成交额都出现了不同幅度的下降。站长网2024-07-01 21:27:110000马来西亚用户抢“爱国手机”,为何华为P60Pro海外首销火爆?
真没有想到,华为P60Pro海外人气会这么高!马来西亚首销,排队购买华为发布的新机,已经排成长龙了。更让我感到意外的是,华为P60Pro在当地的售价,折合人民币高达7300元,这明显比国内贵了。华为手机不是爱国品牌吗?请问,马来西亚用户,爱的又是哪个门子的国呢?当然,网喷是看不到这条文章的。站长网2023-05-25 03:58:020000医疗AI平台Hippocratic完成5300万美元融资 估值5亿美元
划重点:⭐️专注医疗领域的HippocraticAI完成了5300万美元的A轮融资,估值5亿美元,总融资达到1.2亿美元。⭐️发布第一个用于第三阶段安全测试的产品,提供医疗保健人员配置市场,可“雇用”生成式AI代理完成繁琐医疗业务。⭐️融资由PremjiInvest和GeneralCatalyst共同领投,公司表示将进一步创新功能,加强在医疗转型中的关键作用。站长网2024-03-20 11:02:100000