Meta 宣布开源多感官 AI 模型 ImageBind:整合文本、音频、视觉等六种类型数据
Meta 宣布推出一个新的开源 AI 模型,可以连接多种数据流,包括文本、音频、视觉数据、温度和动作读数。

图片来自 Meta
该模型目前仅是一个研究项目,没有立即的消费者或实际应用,但它指向了未来可以创建沉浸式、多感官体验的生成式 AI 系统,并表明了 Meta 在对手 OpenAI 和 Google 日益注重保密的时候仍在分享 AI 研究。
该研究的核心概念是将多种类型的数据链接到一个单一的多维度索引中(或者使用 AI 术语中的「嵌入空间」)。这个想法可能有点抽象,但正是这个概念支持了生成式 AI 的最近繁荣。
例如,像 DALL-E、Stable Diffusion 和 Midjourney 之类的 AI 图像生成器在训练阶段都依赖于系统,这些系统在连接文本和图像时共同寻找视觉数据中的模式,并将这些信息与图像的描述相连。这是使这些系统能够生成遵循用户文本输入的图片的基础。许多生成视频或音频的 AI 工具也是如此。
Meta 表示,它的模型 ImageBind 是第一个将六种类型的数据组合到一个单一的嵌入空间中的模型。包括在模型中的六种类型的数据是:视觉(以图像和视频形式呈现);热量(红外图像);文本;音频;深度信息;以及最有趣的——由惯性测量单元(IMU)生成的运动读数。(IMU 可在手机和智能手表中找到,在那里它们用于执行各种任务,比如从横向到纵向切换手机,区分不同类型的体育活动等。)
这个想法是未来的 AI 系统将可以像当前的 AI 系统对文本输入一样交叉参考这些数据。例如,想象一下一个未来的虚拟现实设备,它不仅可以生成音频和视觉输入,还可以生成你在物理舞台上的环境和动作。你可以要求它模拟一次长途航海,它不仅会把你放在一艘船上,背景中有海浪的声音,还会让你感受到甲板的摇摆和海洋空气的凉爽微风。
Meta 在一篇博客文章中指出,未来的模型可以增加其他感官输入流,包括「触摸、语音、气味和大脑功能磁共振成像信号」。它还声称,这项研究「将机器带到了人类能够同时、全面、直接地从许多不同形式的信息中学习的能力更近了一步」。(当然,这取决于这些步骤的大小。)
当然,这一切都非常推测性的,目前应用这些研究的可能性将会更加有限。例如,去年,Meta 展示了一种由文本描述生成短且模糊的视频的 AI 模型。像 ImageBind 这样的工作展示了系统未来版本如何整合其他数据流,例如生成与视频输出匹配的音频。
对于业内观察者来说,这项研究也很有趣,因为 Meta 正在开源其基础模型——这是人工智能世界中越来越受到关注的做法。
反对开源的人——比如 OpenAI——表示这种做法对创作者是有害的,因为竞争对手可以复制他们的工作,而且这可能会有潜在的危险,使恶意行为者利用最先进的 AI 模型。支持者回应说,开源允许第三方审查系统的问题并改进其缺陷。他们注意到这甚至可能提供商业利益,因为它实质上允许公司招募第三方开发人员作为不付费的工作人员来改进他们的工作。
Meta 迄今一直坚定地站在开源阵营,虽然并非没有困难。(例如,它最新的语言模型 LLaMA 今年早些时候在网上泄漏。)在许多方面,它在人工智能领域缺乏商业成就(该公司没有与 Bing、Bard 或 ChatGPT 等聊天机器人竞争的实际产品)使其能够采用这种方法。对于现在,在 ImageBind 上,它继续这个策略。
多模态运动语言模型MotionGPT 可将语言指令转换为3D人体运动
MotionGPT是一款令人惊叹的技术创新,它统一了语言和运动,将语言指令转换为引人入胜的3D人体运动。这一模型的设计灵感源于即时学习,通过混合运动语言数据进行预训练,并通过基于提示的问答任务进行微调,使其具备卓越的性能。项目地址:https://huggingface.co/spaces/OpenMotionLab/MotionGPT站长网2024-01-05 12:02:030000价值190亿美元的AI计算提供商CoreWeave将在伦敦开设欧洲总部
划重点:⭐CoreWeave在伦敦开设欧洲总部,将在英国投资10亿英镑建立两个数据中心。⭐️领域公司CoreWeave获得巨额融资,估值达190亿美元,加速扩张步伐。⭐️CoreWeave专于提供基于GPU的云计算服务,满足开发者在AI应用构建过程中对高性能计算资源的需求。站长网2024-05-11 11:37:510000美国50州联名呼吁国会成立委员会调查AI对儿童影响
文章概要:1.美国50州总检察长要求国会成立委员会,研究AI对儿童剥削的影响2.委员会应提出解决方案,防止AI生成儿童性虐待内容3.保护儿童安全应该成为评估AI风险的重点站长网2023-09-06 17:45:280000今日AI:GPT-4.5意外曝光可能6月发布、UP主借AI识别情绪播放量186万、全球首个AI程序员诞生
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📢一分钟速看版▶OpenAI的GPT-4.5Turbo意外曝光,可能6月发布▶全球首个AI程序员诞生码农饭碗被砸站长网2024-03-13 15:22:530000美女走秀,扛起过亿销售额
不开口的主播能为直播间带来转化吗?答案是肯定的。最近一段时间,一个名为@楠咪咪天团的直播间在抖音的表现十分惹火。根据第三方数据,近30天内,该直播间共进行了33次带货直播,总销售额预估为1亿。站长网2023-09-05 18:18:170000