即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象
要点:
1. OVIR-3D是一个开放词汇的3D实例检索系统,能够在没有对3D数据进行训练的情况下,从RGB-D视频和语言查询中返回排名的3D实例段。
2. 该系统通过将问题视为从语言引导的2D区域提议进行3D融合的问题,提供了一种直观而有效的解决方案,避免了由于缺乏足够种类的注释3D数据而难以直接训练开放词汇3D分割模型的问题。
3. OVIR-3D的流程包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等步骤,具有广泛的应用前景,同时有相关研究作品OVSG。
OVIR-3D是一个开放词汇的3D实例检索系统,它以直观而有效的方式解决了在没有对3D数据进行训练的情况下获取3D实例的问题。该系统通过语言引导的2D区域提议进行3D融合,为机器人应用(如操纵和导航)提供了解决方案。OVIR-3D的核心思想是直接训练开放词汇的3D分割模型在实践中变得困难,因此它从语言引导的2D区域提议出发,通过在大量2D数据集上进行训练,将2D实例信息在3D空间中投影和融合,以实现快速检索。
项目地址:https://github.com/shiyoung77/ovir-3d
OVIR-3D的使用包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等多个步骤。作者提供了详细的使用说明,包括如何获取仓库、安装依赖以及演示过程。此外,系统支持自定义数据集的准备,通过开源的实感相机和KinectFusion实现,用户能够以指定格式录制和重建自定义3D场景。
在OVIR-3D的背后,Detic作为2D区域提议网络的骨干,通过查询Imagenet21k的所有类别,生成置信度阈值为0.3的输出蒙版和文本对齐特征。这一步骤的输出被存储在特定文件夹中,用户可以选择保存2D可视化,尽管这可能会降低推理速度。
对于2D到3D的融合,OVIR-3D提供了一种算法来处理多个3D场景的并行融合,但作者建议至少拥有11GB内存的显卡以避免在处理大场景时出现内存问题。一旦融合完成,用户可以通过instance_query.py脚本与系统进行交互,检索3D实例。
论文中提到OVIR-3D作为开放词汇问题的一个解决方案,强调其评估方式采用信息检索标准mAP,这是一种更合理的度量方式,尽管略有不同于通常用于封闭集实例分割的mAP度量。文章还提到了OVIR-3D的应用前景,以及后续工作OVSG的介绍,该工作在OVIR-3D的基础上构建3D场景图,实现更精准的对象检索。
在抖音只卖桶装面,销量100万单!
各位村民好,我是村长。一个只卖桶装面食的账号,拍了960多个视频,涨粉80万、销量100万。今天和大家分享的这个账号很有意思,对于大家做抖音带货账号特别有启发。01受众广方便面、粉丝、米线等产品,作为大众产品有许多受众。其一、从几岁的小孩到七八十岁的老人,都会消费。其二、这种产品不仅是外出工作时食用,同样在日常生活、娱乐中也都会食用。站长网2023-06-03 16:23:220000冻结招聘,这家新能源车企宣布裁员
近日,多家媒体报道,瑞典电动汽车制造商极星将在全球范围内裁员10%,并且已经冻结了招聘工作。在该公司近日举办的财务会议上,已经员工通报了即将进行的裁员计划,但没有透露哪些部门将受到影响。站长网2023-05-24 16:35:340000研究人员薪酬最高的13家人工智能公司:OpenAI居首
划重点:🚀OpenAI高居榜首:该公司每年支付86.5万美元的年薪,吸引了全球顶尖AI研究人员。💡Anthropic居次:以85.5万美元年薪位列第二,与OpenAI形成竞争,曾有合并传闻。🌐HuggingFace垫底:以23.8万美元年薪排名最低,但以其开源方式吸引研究人员。0000Animagine XL 3.1发布:一个开源的SDXL动漫模型
AnimagineXL3.1,一款全新的开源动漫主题文本到图像模型,已经正式发布。该版本在原有的基础上进行了一系列的升级和优化,使其对广泛的动漫作品和风格的理解更加深入,覆盖了从古老到现代的各种艺术风格。站长网2024-03-19 17:53:3500012