3D-LLM:让AI聊天机器人可以解读三维世界
研究人员推出了一款名为3D-LLM的新方法,可以将对3D 环境的理解融入到大型语言模型中。这意味着聊天机器人将能够理解和处理3D 空间的概念,从而更好地在三维世界中导航和操作。
大型语言模型和多模态语言模型可以处理语音和2D 图像,比如ChatGPT、GPT-4和Flamingo。然而,这些模型缺乏对3D 环境和物理空间的真正理解。研究人员现在提出了一种称为3D LLM 的新方法来解决这个问题。
3D LLM 旨在通过使用点云等3D 数据作为输入,为 AI 提供3D 空间的概念。通过这种方式,多模态语言模型应该理解空间关系、物理和可供性等概念,而这些概念仅靠2D 图像很难掌握。3D LLM可以使人工智能助理能够在3D 世界中更好地导航、规划和行动,例如在机器人技术和实体人工智能领域。
为了训练模型,团队需要收集足够数量的3D 和自然语言数据对 - 与网络上的图像文本对相比,此类数据集是有限的。因此,团队开发了ChatGPT的提示技术来生成不同的3D描述和对话。
结果是包含超过300,000个3D 文本示例的数据集,涵盖3D 标记、回答视觉问题、任务分解和导航等任务。例如,ChatGPT 被要求通过询问有关从不同角度可见的物体的问题来描述3D 卧室场景。
然后,该团队开发了3D 特征提取器,将3D 数据转换为与预训练的2D 视觉语言模型(例如 BLIP-2和 Flamingo)兼容的格式。
此外,研究人员使用3D 定位机制,允许模型通过将文本描述与3D 坐标相关联来捕获空间信息。这也促进了使用 BLIP-2等模型来有效地训练3D LLM 来理解3D 场景。
实验结果显示,3D 语言模型可以生成对3D 场景的自然语言描述,进行3D 感知对话,并将复杂任务分解为3D 动作。这表明,通过结合空间推理能力,人工智能有潜力开发出更接近人类的3D 环境感知。
研究人员计划将这种模型扩展到其他数据模式,如声音,并训练它们执行其他任务。这将进一步提高 AI 助手在多模态环境中的能力。最终的目标是将这些进步应用到可以与3D 环境智能交互的具体 AI 助手中。这意味着未来可能会有更智能的机器人和具体人工智能应用程序。
6000部短剧的名字里,写着中国人最隐秘的欲望
在争夺注意力的现代内容战争中,名称总是那颗最先上膛的子弹。论吸睛程度,公众号领域的神枪手被大众称作“标题党”,网文圈的佼佼者则被同行半嫉妒半鄙夷地归入“飞卢风”,轻小说界的取名范例更是催生了破圈传播的著名句式——关于我非要取这么长的标题博眼球这件事。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-09 18:00:140000AI作品会侵权吗?我花了一个月时间,调研了你想知道的一切。
在AI越来越被普及之后,有越来越多的创作者下场,开始使用AI,来创作自己的一些作品。但是在这个时间点,很多的创作者,都非常关心一个问题:AI版权。特别是最近的有两个月,在聊天中有密集想了解的,比如影视飓风,比如某国企,比如港中大等等。大家的问题几乎都聚焦在两个问题上:我用AI直接创作的内容,会有侵权的可能吗?我用AI直接创作的内容,我拥有版权吗?站长网2024-05-13 15:28:320000Meta 向员工演示为 Whatsapp 和 Messenger 开发的生成式 AI 聊天机器人
Facebook所有者Meta于周四向员工提供了一系列正在开发的人工智能工具的初步展示,其中包括计划在Messenger和WhatsApp上使用类似ChatGPT的聊天机器人,这些机器人可以使用不同的角色进行对话。站长网2023-06-10 08:46:510001“账号”or“帐号”,互联网平台们用错了?有平台已迅速更正
站长之家编辑总结:本文探讨了互联网平台上“账号”和“帐号”的使用问题。根据《现代汉语词典》等权威词典,只有“账号”一词,而“帐号”是错误的用法。然而,许多互联网平台仍存在使用“帐号”的情况,甚至在同一个平台中,“帐”和“账”混用。文章强调了规范使用字词的重要性,不仅影响信息传达和理解,还可能对青少年教育产生负面影响。因此,互联网平台应该统一规范字词的使用,避免错误和混淆。站长网2023-07-14 02:00:130003马斯克承诺明年开始限量生产擎天柱Optimus人形机器人
在今日召开的特斯拉股东大会上,埃隆·马斯克展现了对公司未来的宏伟蓝图,将特斯拉的未来深深押注在Optimus机器人计划上。他坚信,这一战略举措将推动特斯拉市值飙升,达到惊人的数十万亿美元水平。站长网2024-06-14 22:41:040000