Meta 宣布开源多感官 AI 模型 ImageBind:整合文本、音频、视觉等六种类型数据
Meta 宣布推出一个新的开源 AI 模型,可以连接多种数据流,包括文本、音频、视觉数据、温度和动作读数。
图片来自 Meta
该模型目前仅是一个研究项目,没有立即的消费者或实际应用,但它指向了未来可以创建沉浸式、多感官体验的生成式 AI 系统,并表明了 Meta 在对手 OpenAI 和 Google 日益注重保密的时候仍在分享 AI 研究。
该研究的核心概念是将多种类型的数据链接到一个单一的多维度索引中(或者使用 AI 术语中的「嵌入空间」)。这个想法可能有点抽象,但正是这个概念支持了生成式 AI 的最近繁荣。
例如,像 DALL-E、Stable Diffusion 和 Midjourney 之类的 AI 图像生成器在训练阶段都依赖于系统,这些系统在连接文本和图像时共同寻找视觉数据中的模式,并将这些信息与图像的描述相连。这是使这些系统能够生成遵循用户文本输入的图片的基础。许多生成视频或音频的 AI 工具也是如此。
Meta 表示,它的模型 ImageBind 是第一个将六种类型的数据组合到一个单一的嵌入空间中的模型。包括在模型中的六种类型的数据是:视觉(以图像和视频形式呈现);热量(红外图像);文本;音频;深度信息;以及最有趣的——由惯性测量单元(IMU)生成的运动读数。(IMU 可在手机和智能手表中找到,在那里它们用于执行各种任务,比如从横向到纵向切换手机,区分不同类型的体育活动等。)
这个想法是未来的 AI 系统将可以像当前的 AI 系统对文本输入一样交叉参考这些数据。例如,想象一下一个未来的虚拟现实设备,它不仅可以生成音频和视觉输入,还可以生成你在物理舞台上的环境和动作。你可以要求它模拟一次长途航海,它不仅会把你放在一艘船上,背景中有海浪的声音,还会让你感受到甲板的摇摆和海洋空气的凉爽微风。
Meta 在一篇博客文章中指出,未来的模型可以增加其他感官输入流,包括「触摸、语音、气味和大脑功能磁共振成像信号」。它还声称,这项研究「将机器带到了人类能够同时、全面、直接地从许多不同形式的信息中学习的能力更近了一步」。(当然,这取决于这些步骤的大小。)
当然,这一切都非常推测性的,目前应用这些研究的可能性将会更加有限。例如,去年,Meta 展示了一种由文本描述生成短且模糊的视频的 AI 模型。像 ImageBind 这样的工作展示了系统未来版本如何整合其他数据流,例如生成与视频输出匹配的音频。
对于业内观察者来说,这项研究也很有趣,因为 Meta 正在开源其基础模型——这是人工智能世界中越来越受到关注的做法。
反对开源的人——比如 OpenAI——表示这种做法对创作者是有害的,因为竞争对手可以复制他们的工作,而且这可能会有潜在的危险,使恶意行为者利用最先进的 AI 模型。支持者回应说,开源允许第三方审查系统的问题并改进其缺陷。他们注意到这甚至可能提供商业利益,因为它实质上允许公司招募第三方开发人员作为不付费的工作人员来改进他们的工作。
Meta 迄今一直坚定地站在开源阵营,虽然并非没有困难。(例如,它最新的语言模型 LLaMA 今年早些时候在网上泄漏。)在许多方面,它在人工智能领域缺乏商业成就(该公司没有与 Bing、Bard 或 ChatGPT 等聊天机器人竞争的实际产品)使其能够采用这种方法。对于现在,在 ImageBind 上,它继续这个策略。
Edge疑屏蔽百度搜索结果 双方暂未回应
1月29日,“百度Edge”事件引发微博热议,许多网友反映,Edge浏览器显示百度搜索结果存在风险,搜索结果出现“此网站不安全已被人投诉”的提示语,要查看详情,然后选择“仍要访问此不安全网站(不建议)”才能进入相关页面。经过测试发现,目前为止,相关问题还没有解决,在Edge浏览器上点击百度相关链接,所有页面都出现“红色”警告。百度和微软中国方面都表示不清楚情况,正在向业务部门询问了解情况。站长网2024-01-29 17:40:230000商汤升级发布医疗健康大模型“大医” 支持高质量训练低门槛部署
商汤科技发布了升级版医疗健康大语言模型“大医”,并正式向医疗健康产业链上下游机构客户提供服务。该模型包含13个预设场景,支持个性化功能,高质量训练和低门槛部署。商汤已与多家医疗机构合作,实现“大医”在具体医疗健康场景中的落地。商汤表示,“大医”不仅服务于医院,也希望能覆盖整个医疗健康产业链。商汤还将与营养保健、健康管理等领域的企业、机构合作,为企业服务数智化转型提供强大驱动力。站长网2023-10-16 14:39:410000商家:双十一咋变成这样了……
一年一度的双11大促即将开始,各大平台、电商卖家都在摩拳擦掌,迎接疫情放开后的第一个双11。截至目前,各平台双11招商大会已经陆续召开。快手将最早开始大促,预售从10月18日起;京东最晚结束,大促延续到11月13日。今年双11,淘宝取消预售,天猫“立减”和“满减”二选一;抖音全面取消跨店满减,推出抖音商城金卡,对标京东plus会员和淘宝88vip;站长网2023-10-15 09:16:340000亚马逊计划利用生成式 AI 为商家生成照片和视频广告
亚马逊公司发言人证实,正在建立一个团队,研究人工智能工具,为商家生成照片和视频,用于其平台上的广告活动,这些努力可能有助于其广告业务的多样化。站长网2023-05-06 09:03:150000研究发现AI聊天机器人传播关于黑人的“种族主义”医疗信息
划重点:-研究表明,流行的AI聊天机器人,如ChatGPT,被发现传播了关于黑人的被证伪的医疗刻板印象。-斯坦福大学的研究人员通过AI聊天机器人提出了九个医学问题,并发现它们返回的答案包含有关黑人的被证伪的医疗观念,包括关于肾脏功能、肺容量的不正确回答,以及关于黑人与白人拥有不同肌肉质量的观点。站长网2023-10-25 19:13:260000