Meta 开源计算机视觉基础模型DINOv2
文章概要:
1. Meta公司以Apache2.0许可证发布计算机视觉模型DINOv2开源版本。
2. DINOv2可用于各种计算机视觉任务,是灵活通用的工具。
3. Meta计划将DINOv2与大规模语言模型结合,创造更强大的图像分析系统。
Meta 在 Apache2.0许可下发布其计算机视觉模型 DINOv2,为开发人员和研究人员提供下游任务的更大灵活性。Meta 还发布了一系列基于 DINOv2的密集预测模型,用于语义图像分割和单目深度估计。
Meta 还引入了FACET,这是一个评估计算机视觉模型在分类和分割等任务中的公平性的基准。该数据集包含50,000人的32,000张图像,除了身体特征之外,还具有感知性别和年龄组等人口统计属性。FACET旨在成为评估计算机视觉模型公平性的标准基准,并鼓励设计和开发考虑更多人的模型。
DINOv2是一种自监督学习训练的模型,在各种视觉任务上的表现可与当前主流的专用系统可相媲美甚至更好。该模型可以为下游任务提供更大的灵活性,是一种通用的计算机视觉工具。
DINOv2经过1.42亿张图像的训练,可以直接作为各种视觉任务的输入特征使用,包括图像级任务(图像分类、实例检索、视频理解等)和像素级任务(深度估计、语义分割等)。DINOv2模型可能在各种应用中发挥作用,如森林绘图、动物密度估计、生物学研究等。
DINOv2核心特色功能包括:
基于PyTorch实现的DINOv2自监督学习方法的代码和预训练模型
不需要任何标签或注释即可在包含1.42亿张图像的数据集上进行预训练
产生高性能的视觉特征,可以直接与简单的线性层组合在各种计算机视觉任务上使用
预训练模型效果强劲,在不进行微调的情况下也能跨域泛化
提供多个预训练模型 BACKBONE(ViT-S/14、ViT-B/14等)可通过PyTorch Hub加载
提供了对应预训练任务头,如图像分类、深度估计、语义分割等
代码模块化,可以方便训练、评估和微调
模型和代码均基于Apache2.0许可证开源
Meta公司计划将DINOv2与大规模语言模型相结合,创造出更强大的图像分析和处理系统。语言模型受输入字幕限制,而DINOv2可以为复杂的AI系统提供更丰富的图像信息,实现更深层次的图像推理。DINOv2的开源发布是计算机视觉领域的重要进展。
DINOv2项目网址:https://github.com/facebookresearch/dinov2
FACET官方介绍:https://ai.meta.com/datasets/facet/
用于 AI 训练 GPU 供不应求 台积电回应扩充 CoWos 先进封装产能
日前市场传出台积电CoWos产能将启动扩充,对此,台积回应指出,「不评论市场传闻,公司今年四月时于法说会中提及,关于先进封装产能的扩充(包括CoWoS),我们仍在评估中。目前没有更新回应。」站长网2023-06-05 19:58:270000微信视频号:将回收医疗类认证账号私信和客服功能
微信发布《关于“视频号将回收医疗类认证账号私信和客服功能”的公告》称,为保障视频号用户的生命和财产安全,避免医疗类账号(如个人认证-执业医师、机构认证-医疗相关主体等)被用于违规引流、线上问诊等场景,视频号将于2024年5月28日逐步回收医疗类账号的私信和客服功能。站长网2024-05-28 19:35:450000退款1.5亿,抖音“美妆一哥”被打假退网,曾坐拥2000万粉丝
又一位抖音一哥,站上了风口浪尖。在停更三个月后,抖音“美妆一哥”骆王宇发出一条短视频,表示自己将为所有在其账号购买了“CSS油橄榄精华”的用户退款,涉及的金额或达到1.5亿元。他还直言自己感受到了不再被人需要,将暂时离开一段时间,“其实我是准备永远离开了”。站长网2024-07-17 10:58:150003马斯克称中国航天工程计划更加超前
中国载人航天工程在5月29日的新闻发布会上公布了下一步的发展计划,明确表示目标是2030年前实现中国人首次登陆月球。此外,美国太空探索技术公司的首席执行官埃隆·马斯克也在社交媒体上表示,中国的航天工程计划比大多数人意识到的要更加超前。站长网2023-05-30 09:46:330001苹果Vision Pro头显AI助手来了 会调酒还会打麻将
上周苹果推出的VisionPro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话,会是什么样的体验吗?最近,新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter(水獭)。它能够以视频作为输入,完成多模态的感知、推理和上下文学习,并经过专门的指令遵守训练。站长网2023-06-12 17:12:550000