即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象
要点:
1. OVIR-3D是一个开放词汇的3D实例检索系统,能够在没有对3D数据进行训练的情况下,从RGB-D视频和语言查询中返回排名的3D实例段。
2. 该系统通过将问题视为从语言引导的2D区域提议进行3D融合的问题,提供了一种直观而有效的解决方案,避免了由于缺乏足够种类的注释3D数据而难以直接训练开放词汇3D分割模型的问题。
3. OVIR-3D的流程包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等步骤,具有广泛的应用前景,同时有相关研究作品OVSG。
OVIR-3D是一个开放词汇的3D实例检索系统,它以直观而有效的方式解决了在没有对3D数据进行训练的情况下获取3D实例的问题。该系统通过语言引导的2D区域提议进行3D融合,为机器人应用(如操纵和导航)提供了解决方案。OVIR-3D的核心思想是直接训练开放词汇的3D分割模型在实践中变得困难,因此它从语言引导的2D区域提议出发,通过在大量2D数据集上进行训练,将2D实例信息在3D空间中投影和融合,以实现快速检索。

项目地址:https://github.com/shiyoung77/ovir-3d
OVIR-3D的使用包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等多个步骤。作者提供了详细的使用说明,包括如何获取仓库、安装依赖以及演示过程。此外,系统支持自定义数据集的准备,通过开源的实感相机和KinectFusion实现,用户能够以指定格式录制和重建自定义3D场景。
在OVIR-3D的背后,Detic作为2D区域提议网络的骨干,通过查询Imagenet21k的所有类别,生成置信度阈值为0.3的输出蒙版和文本对齐特征。这一步骤的输出被存储在特定文件夹中,用户可以选择保存2D可视化,尽管这可能会降低推理速度。
对于2D到3D的融合,OVIR-3D提供了一种算法来处理多个3D场景的并行融合,但作者建议至少拥有11GB内存的显卡以避免在处理大场景时出现内存问题。一旦融合完成,用户可以通过instance_query.py脚本与系统进行交互,检索3D实例。
论文中提到OVIR-3D作为开放词汇问题的一个解决方案,强调其评估方式采用信息检索标准mAP,这是一种更合理的度量方式,尽管略有不同于通常用于封闭集实例分割的mAP度量。文章还提到了OVIR-3D的应用前景,以及后续工作OVSG的介绍,该工作在OVIR-3D的基础上构建3D场景图,实现更精准的对象检索。
打击AI深度伪造仍无解?研究称:数字水印保护可被轻松绕过
文章概要:1.AI生成深度伪造图像的潜在风险,包括恶意用途和法律挑战。2.研究指出数字水印保护容易被绕过,引发信息泄漏和欺诈问题。3.尽管存在挑战,设计强大的数字水印仍然是应对问题的一种可能解决方案。站长网2023-10-09 10:45:100000微软开源多功能视觉模型Florence-2,分割、识别一切图片!
微软AzureAI团队宣布开源视觉模型——Florence-2。据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。站长网2024-11-17 11:52:550003YouTube推出新手势:长按即可2倍速观看视频
根据9to5google的报道,如今在YouTube上提高视频播放速度已经成为一种常见现象,尤其在播客领域。为此,谷歌正在测试一种新的手势,通过长按屏幕即可将视频的播放速度提高一倍。目前,在移动设备上调整播放速度需要点击视频窗口以显示控制选项,然后再点击设置按钮,最后选择所需的播放速度。这个过程需要四个步骤和多次点击。站长网2023-07-18 17:55:130001白宫报告称美国10%的员工面临高度暴露于人工智能的风险
划重点:-🤖10%的美国员工处于与人工智能高度暴露且绩效要求较低的岗位-📉20%的美国员工处于与人工智能高度暴露的职业中-💼AI可能会改变工作方式而非完全淘汰岗位站长网2024-03-23 00:22:310000微软Bing Chat更名为Copilot
在2023年的MicrosoftIgnite活动上,微软推出了一个意外的产品,这是一个能够创建真实人物形象并使其说出话语的工具。这个工具可以创建一个栩栩如生的人物形象,并让这个形象说出一些事物。站长网2023-11-16 11:11:440000