3D-LLM:让AI聊天机器人可以解读三维世界
研究人员推出了一款名为3D-LLM的新方法,可以将对3D 环境的理解融入到大型语言模型中。这意味着聊天机器人将能够理解和处理3D 空间的概念,从而更好地在三维世界中导航和操作。
大型语言模型和多模态语言模型可以处理语音和2D 图像,比如ChatGPT、GPT-4和Flamingo。然而,这些模型缺乏对3D 环境和物理空间的真正理解。研究人员现在提出了一种称为3D LLM 的新方法来解决这个问题。
3D LLM 旨在通过使用点云等3D 数据作为输入,为 AI 提供3D 空间的概念。通过这种方式,多模态语言模型应该理解空间关系、物理和可供性等概念,而这些概念仅靠2D 图像很难掌握。3D LLM可以使人工智能助理能够在3D 世界中更好地导航、规划和行动,例如在机器人技术和实体人工智能领域。
为了训练模型,团队需要收集足够数量的3D 和自然语言数据对 - 与网络上的图像文本对相比,此类数据集是有限的。因此,团队开发了ChatGPT的提示技术来生成不同的3D描述和对话。
结果是包含超过300,000个3D 文本示例的数据集,涵盖3D 标记、回答视觉问题、任务分解和导航等任务。例如,ChatGPT 被要求通过询问有关从不同角度可见的物体的问题来描述3D 卧室场景。
然后,该团队开发了3D 特征提取器,将3D 数据转换为与预训练的2D 视觉语言模型(例如 BLIP-2和 Flamingo)兼容的格式。
此外,研究人员使用3D 定位机制,允许模型通过将文本描述与3D 坐标相关联来捕获空间信息。这也促进了使用 BLIP-2等模型来有效地训练3D LLM 来理解3D 场景。
实验结果显示,3D 语言模型可以生成对3D 场景的自然语言描述,进行3D 感知对话,并将复杂任务分解为3D 动作。这表明,通过结合空间推理能力,人工智能有潜力开发出更接近人类的3D 环境感知。
研究人员计划将这种模型扩展到其他数据模式,如声音,并训练它们执行其他任务。这将进一步提高 AI 助手在多模态环境中的能力。最终的目标是将这些进步应用到可以与3D 环境智能交互的具体 AI 助手中。这意味着未来可能会有更智能的机器人和具体人工智能应用程序。
研究:大模型在回答中会重复有害的错误信息
**划重点:**1.📚研究揭示大型语言模型在六个类别中重复传播阴谋论、有害刻板印象和其他形式的虚假信息。2.🔄ChatGPT存在频繁错误、自相矛盾及重复有害信息的问题。3.🤔研究强调语境与提问方式可影响模型对虚假信息的“附和”程度。对大型语言模型的新研究表明,它们重复了阴谋论、有害的刻板印象和其他形式的错误信息。0001谷歌CEO:如果OpenAI在AI训练中滥用YouTube将采取行动
划重点:-谷歌CEOSundarPichai表示,如果OpenAI使用YouTube内容训练人工智能模型生成视频,谷歌将采取行动。-OpenAI技术负责人MiraMurati表示,OpenAI在训练数据中使用了公开可用的数据和许可的数据,但不确定是否包括YouTube视频。-谷歌有明确的服务条款,如果OpenAI违反了这些条款,谷歌将与其沟通并解决。站长网2024-05-15 15:24:050000大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了
说到科技圈的近期新闻,没有比小马和小扎约架这件事更热闹的八卦话题了。前几天,马斯克直播了自己上门寻找扎克伯格的过程。虽然最终无功而返,但小马显然“醉翁之意不在酒”,而是想借机展示特斯拉最新的FSDV12自动驾驶功能。可就在小马得意洋洋的向观众介绍时,自动驾驶系统却出了状况,在一个路口时作出了错误的判断,逼得小马手动干预了驾驶。小马尴尬地表示要“给网络喂更多的相关数据”。站长网2023-09-04 09:27:360000李彦宏宣布文心大模型4.0正式发布 与GPT-4相比毫不逊色
百度世界大会2023年10月17日在北京首钢园拉开帷幕,本届大会的主题为“生成未来(PROMPTTHEWORLD)”。在这个由百度创始人、董事长兼首席执行官李彦宏发表主题演讲的盛会上,他详细探讨了AI原生应用的最新进展,以及如何利用文心大模型进行创新应用开发。站长网2023-10-18 11:26:590000JetBrains 推出 AI 助手功能 提供程序开发的智能辅助
JetBrains发布了基于人工智能驱动的ReSharper版本,这是其针对MicrosoftVisualStudio的开发者生产力扩展。新版本ReSharper2023.2是首个搭载了基于人工智能的开发辅助功能的版本。站长网2023-07-15 11:18:550000