Meta发布AI图片学习模型I-JEPA:可自我学习推理
Meta的首席人工智能科学家Yann LeCun已经讨论了几年能够在很少或完全不需要人类的帮助下学习世界模型的深度学习系统。现在,这个愿景正在慢慢实现,因为 Meta 刚刚发布了 I- JEPA 的第一个版本,这是一个机器学习 (ML) 模型,通过对图像的自我监督学习来学习世界的抽象表示。
初步测试显示,I-JEPA在许多计算机视觉任务上表现优秀。它也比其他最先进的模型更高效,仅需要训练的计算资源的十分之一。Meta已经公开了训练代码和模型,并将在下周的计算机视觉和模式识别(CVPR)会议上展示I-JEPA。
自我监督学习
自我监督学习的想法受到人类和动物学习的启发。我们很多知识都是通过观察世界获取的。同样,人工智能系统应该能够通过原始观察学习,而无需人类标记他们的训练数据。
自我监督学习已经在一些人工智能领域取得了显著的进展,包括生成模型和大型语言模型(LLMs)。在2022年,LeCun提出了“联合预测嵌入架构”(JEPA),这是一种可以学习世界模型和常识等重要知识的自我监督模型。JEPA在重要方面不同于其他自我监督模型。
生成模型(例如DALL-E和GPT)旨在进行细致的预测。例如,在训练期间,文本或图像的一部分被遮盖,模型尝试预测确切的缺失单词或像素。尝试填补每一个细节的问题是,世界是不可预测的,模型经常陷入许多可能的结果中而无法前进。
相比之下,JEPA不是关注像素级的细节,而是试图学习和预测高层次的抽象,例如场景必须包含什么以及对象如何相互关联。这种方法使模型在学习环境的潜在空间时不易出错,成本也大大降低。
“通过在高抽象级别上预测表示,而不是直接预测像素值,我们希望直接学习有用的表示,并避免了生成方法的局限性,”Meta的研究人员写道。
I-JEPA是LeCun提出的架构的基于图像的实现。它使用“抽象预测目标”来预测缺失信息,可能会消除不必要的像素级细节,从而使模型学习更多的语义特征。
I-JEPA使用Vision Transformer(ViT)对现有信息进行编码,这是一种用于LLM中的Transformer架构的变体,但是对图像处理进行了修改。然后,它将此信息作为上下文传递给预测器 ViT,该预测器为缺失的部分生成语义表示。
Meta的研究人员训练了一个生成模型,用于从I-JEPA预测的语义数据中创建草图。在下图中,I-JEPA在蓝色框外的像素作为上下文,然后预测了蓝色框内的内容。生成模型然后创建了I-JEPA预测的草图。结果显示,I-JEPA的抽象匹配了场景的真实情况。
虽然I-JEPA不会生成写实的图像,但它可以在机器人和自动驾驶汽车等领域中具有许多应用,其中AI机器人必须能够理解其环境并处理一些非常合理的结果。
一个非常有效的模型
I-JEPA的一项明显好处是其内存和计算效率。预训练阶段不需要其他类型的自我监督学习方法中使用的计算密集型数据增强技术。研究人员能够使用16个A100GPU在不到72小时内训练出一个拥有632百万参数的模型,约为其他技术的十分之一。
“经验证明,我们发现I-JEPA可以不使用手工制作的视图仿真来学习强大的即插即用的语义表示,”研究人员写道。
他们的实验表明,I-JEPA在图像分类、物体计数和深度预测等计算机视觉任务中需要远远较少的微调,即可超越其他最先进的模型。研究人员能够使用仅占1%的训练数据在ImageNet-1K图像分类数据集上进行微调,每类仅使用12至13个图像。
“通过使用具有较少刚性感应偏置的更简单的模型,I-JEPA适用于更广泛的任务,”研究人员写道。鉴于互联网上未标记数据的高可用性,I-JEPA 等模型对于以前需要大量手动标记数据的应用程序来说非常有价值。
项目网址:https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/
谷歌 DeepMind 首席商务官呼吁以安全、道德和包容的方式发展人工智能
谷歌DeepMind的首席商务官ColinMurdoch敦促开发人工智能(AI)的人以安全、道德和包容的方式进行开发。谷歌DeepMind是谷歌母公司Alphabet的子公司,专注于开发通用人工智能技术。在加拿大多伦多举行的Collision大会上,Murdoch向数千名科技创新者强调了在AI创建过程中包容不同声音的重要性,以避免加剧现有的偏见。站长网2023-06-30 01:35:070000AI视野:谷歌推大模型VideoPoet;百度灵境矩阵升级;微软把DALL-E3集成到键盘;小红书AI设计服装刷屏
🤖📈💻💡大模型动态谷歌推大语言模型VideoPoetGoogleResearch最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。项目网址体验:https://top.aibase.com/tool/videopoet【AiBase提要:】站长网2023-12-20 15:46:210000Waymo 决定暂停自动卡车技术的开发
Alphabet旗下的Waymo决定暂停自动卡车技术的开发,并将重点放在网约车服务上。据了解,该公司将推迟卡车运输商业化的时间表,并缩减该部门的开发规模,导致部分员工被解雇。WaymoVia部门负责自动卡车技术,与WaymoOne机器人出租车部门并存,但现在卡车部门的未来发展变得不确定。站长网2023-07-27 14:11:530000直播间“贩卖”小哥哥:有人看没人买
没想到,蒙牛用一群“小哥哥”,接住了“从天而降”的流量。近日,有网友发现,蒙牛冰淇淋旗舰店官方账号在抖音开启直播带货,五天七场直播涨粉三万多,平均每场直播涨粉四千多,账号视频点赞量也从个位数增长过万。虽然蒙牛的数据还算不上顶流,但对一个自播品牌,属实算“出圈”。站长网2023-04-22 07:42:040000意大利制造商Piaggio推出AI驱动的工厂机器人 可携带130公斤物品
划重点:-🤖Vespa制造商Piaggio推出了一款使用人工智能的工厂机器人,可自主移动在预设路线上,并可携带高达130公斤的物品。-🏍️该机器人将首先应用于意大利摩托车品牌MotoGuzzi的生产线,随后将在意大利、印度、越南和印度尼西亚的其他工厂中使用。0000