谷歌推多模态自回归模型Mirasol3B
站长网2023-11-23 17:13:150阅
要点:
Google AI 发布了一种名为 Mirasol3B 的多模态自回归模型,可以学习处理音频、视频和文本等不同的模态数据。
Mirasol3B 采用了多模态自回归结构,将时间对齐和上下文模态分开建模,通过交叉注意力机制实现模态之间的信息交换。
Mirasol3B 的关键在于其应用了自回归建模到时间对齐的模态中,能够有效地处理长视频输入,并通过一个学习模块 Combiner 来协调视频和音频信号。
Google AI 推出的 Mirasol3B 是一种创新的多模态自回归模型,能够处理音频、视频和文本等不同模态的数据。该模型通过采用多模态自回归结构,将时间对齐和上下文模态分开建模,并通过交叉注意力机制实现模态之间的信息交换。

论文地址:https://arxiv.org/abs/2311.05698
Mirasol3B 还应用了自回归建模到时间对齐的模态中,通过智能分块和学习模块 Combiner 协调视频和音频信号,从而有效地处理长视频输入。该模型在各项评估中表现出色,并且相较于更大的模型,在文本生成方面表现出更好的泛化能力。
Mirasol3B 的创新思路和高性能使其成为解决多模态机器学习问题的重要进展,为实际应用提供了强大的多模态理解能力。作为多模态领域的进步标志,Mirasol3B 在不断探索 AI 模型理解世界复杂性的道路上起到了积极的推动作用。
0000
相关推荐
苹果被提起4000万用户集体诉讼!索赔近280亿元
快科技11月14日消息,据媒体报道,英国消费者权益组织Which?”代表约4000万iCloud用户向苹果提起反垄断诉讼,指控苹果违反了竞争法,并寻求30亿英镑(约合人民币276亿元)的赔偿。他们认为,苹果公司滥用其市场主导地位,迫使用户注册自家的iCloud来存储个人数据,却不允许使用其他厂商的服务来实现同等的备份效果,且苹果iCloud收费过高。0000小米MIX Fold 3官宣升级澎湃OS
小米官方宣布,自今日起,小米MIXFold3将支持升级小米澎湃OS,并且已经向老用户推送了正式版本。按照小米的计划,澎湃OS将逐步全面替代MIUI,澎湃OS基于深度进化的Android以及自研的Vela系统融合,重写了底层架构,实现超低功耗渲染框架,提升续航能力并提供更流畅的动画效果。0000奥特曼此前遭解雇或因AI威胁人类
在不到一周的时间内,OpenAI的政变大戏经历了多次反转,最终以山姆·奥特曼重返OpenAI担任CEO而结束。有知情人士透露,在公司内部,有几名研究员联合向董事会提交了一封信。信中警告称,公司正在研发的人工智能(AI)技术可能对人类构成威胁。奥特曼是OpenAI内部积极推动生成式人工智能(AGI)的代表人物,而这个警告信似乎是他被解雇的关键因素。然而,具体信中内容尚未公开。站长网2023-11-23 11:13:520000快手发布视频生成大模型「可灵」:已开放邀测 效果对标Sora
近日,快手发布了一款名为「可灵」的视频生成大模型,该模型效果对标了之前发布的Sora,同时已在快手旗下的快影App开放邀测体验。可灵大模型具有多项优势,包括能够生成大幅度的合理运动、模拟物理世界特性、具备强大的概念组合能力和想象力,以及支持高分辨率视频生成和自由的宽高比设置。站长网2024-06-06 20:58:090000视频号爆发式增长,我们总结了4种不同业态的增长密码
过去一年,视频号实现爆发式增长——用户使用时长比去年同期增加50%,总使用时长超过朋友圈。视频号销售额增长800%,并呈现出高客单、高复购特征。流量红利见底的时代,面对可能是全网最后一片流量洼地的视频号,如何最大化挖掘其营销价值?11月30日,生机·2023刀法年度品效峰会上,腾讯广告日百家清行业负责人杨朔带来最新平台趋势和不同类型品牌的解决方案。站长网2023-12-14 12:06:050000