Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界
**划重点:**
🌐 Sora被LeCun质疑不能真正理解物理世界,引发论战。
🎥 Meta推出V-JEPA,非生成式模型,通过视频预测模型实现高效的世界理解。
🚀 V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。
近日,深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。他指出,仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。
LeCun进一步解释,视频生成系统成功的标准是创造一个合理的样本,而真实视频的合理发展路径相对较少,尤其在特定动作条件下难度更大。他提出了联合嵌入预测架构(JEPA)的核心思想,强调生成后续内容的抽象表示,去除与行动无关的细节。
与此同时,LeCun展示了Meta公司发布的V-JEPA,一个非生成式模型,以人类的理解方式看世界。通过在抽象空间中预测视频中被遮挡或缺失的部分,V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。
V-JEPA采用自监督学习方式,仅依靠未标记的数据进行预训练,然后通过标记数据微调模型。研究人员在视频中遮挡大部分内容,要求预测器补全缺失的内容,以一种抽象的描述形式在表示空间中填充内容。
值得一提的是,V-JEPA是首个在冻结评估上表现出色的视频模型,为模型学习新技能提供了高效快速的方法。研究还表明,V-JEPA在标注使用效率上优于其他模型,尤其在标注样本减少时表现更为出色。
虽然V-JEPA主要集中于视频的「视觉元素」,Meta公司表示下一步研究方向将包括同时处理视频中的「视觉和音频信息」的多模态方法。LeCun认为,V-JEPA是迈向对世界更深刻理解的关键一步,使机器能够进行更广泛的推理和规划。
V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实(AR)眼镜提供了有力支持。
V-JEPA模型的特色亮点功能包括:
视频理解能力: V-JEPA是一个非生成模型,通过在抽象表示空间中预测视频中缺失或遮挡的部分来学习。它在检测和理解物体之间高度详细的互动方面表现出色。
自监督学习方法: V-JEPA完全使用未标记的数据进行预训练,仅在预训练后才使用标签来适应特定任务。这种方法在减少所需标记样本数量和学习未标记数据方面显示出更高的效率。
遮蔽方法: V-JEPA采用一种特殊的遮蔽方法,通过在空间和时间上遮蔽视频的部分来迫使模型学习和发展对场景的理解。这有助于使模型更好地理解视频中的复杂互动。
抽象表示空间预测: V-JEPA通过在抽象表示空间中进行预测,使模型能够专注于视频包含的更高级别的概念信息,而无需关注像素级的细节。
低次冻结评估: V-JEPA是第一个在“冻结评估”中表现出色的视频模型,通过对编码器和预测器进行自监督预训练,然后仅在需要适应新技能时训练一个小型轻量级的专用层或网络。
多任务应用: V-JEPA的自监督方法使其能够适用于各种下游图像和视频任务,如图像分类、动作分类和时空动作检测,而无需调整模型参数。
未来研究方向: 该模型的未来方向包括采用更多模态的方法,如结合音频和视觉。此外,团队计划探索如何将V-JEPA的理解和规划能力应用于更长时间范围的视频任务。
项目介绍网址:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
投资领域聊天机器人BondGPT上线 基于GPT-4打造
近期,全球金融科技领导者Broadridge的子公司LTX宣布,通过GPT-4打造了BondGPT,该模型主要用于债券市场,帮助客户回答各种与债券相关的问题,以增强价值高达10.3万亿美元的美国公司债券市场的流动性和价格发现。目前,BondGPT已投入使用。站长网2023-06-20 16:17:490000这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练
最近,开源大模型社区再次「热闹」了起来,主角是AI写作初创公司HyperWrite开发的新模型Reflection70B。它的底层模型建立在MetaLlama3.170BInstruct上,并使用原始的Llamachat格式,确保了与现有工具和pipeline的兼容性。站长网2024-09-10 16:26:010000百度副总裁:大模型领域有人在挂羊头卖狗肉
快科技9月1日消息,在2024亚布力企业家第二十届夏季年会期间,百度副总裁石清华指出,目前大模型领域存在两种不良现象。其中之一便是一些非技术专家在该领域进行挂羊头卖狗肉”的行为,这不仅干扰了企业主的选择,也对行业的健康发展造成了影响。石清华认为,大模型的讨论不应只停留在模型本身,而应关注其实际应用和落地效果,无论是提升效率、降低成本还是改善产品质量,大模型的应用都应该为企业带来实际的收益。0001商汤升级发布医疗健康大模型“大医” 支持高质量训练低门槛部署
商汤科技发布了升级版医疗健康大语言模型“大医”,并正式向医疗健康产业链上下游机构客户提供服务。该模型包含13个预设场景,支持个性化功能,高质量训练和低门槛部署。商汤已与多家医疗机构合作,实现“大医”在具体医疗健康场景中的落地。商汤表示,“大医”不仅服务于医院,也希望能覆盖整个医疗健康产业链。商汤还将与营养保健、健康管理等领域的企业、机构合作,为企业服务数智化转型提供强大驱动力。站长网2023-10-16 14:39:410000腾讯QQ群恢复功能今日正式下线
今天,腾讯元老级功能“QQ群恢复”已正式下线。据悉,今年9月,腾讯QQ群团队发布公告,宣布了上述消息。当时,公告指出,由于业务调整,这个恢复功能将在2023年10月13日取消,届时所有涉及到QQ群相关的恢复功能都将无法使用。QQ群团队建议用户在解散群、转让群、删除群成员等操作时务必慎重考虑,因为一旦操作完成,将无法再恢复。站长网2023-10-13 14:09:230000