智源悟道3.0“Emu”模型开源
站长网2023-07-14 16:31:070阅
智源研究院发布了首个全能多模态预训练模型 Emu 的开源版本。Emu 在多项性能指标上超越了 DeepMind 的 Flamingo 模型,具备统一多模态学习框架和视频数据的大量采用的能力。

Emu 可以完成任意图生文和文生图的多模态任务,包括图像描述、图像问答、视频问答、文图生成、图像融合和多模态对话等。Emu 还具有强大的少样本上下文学习能力,可以根据给定任务的几个示例样本进行上下文学习。
Emu 在8个基准测试中展现出极强的零样本性能,具有强大的泛化能力。模型还具有世界知识丰富、视频理解能力强、图像融合和上下文图像生成等技术亮点。

Emu 首次大量采用视频数据,并创新性建立了统一多模态学习框架,将不同来源的多模态交错数据进行自回归建模,同时首次采用了海量视频作为图文交错序列数据。
模型训练方面,Emu 使用自回归方式预测多模态序列中的下一个元素作为统一的学习目标。总之,Emu 是一款功能强大的全能多模态预训练模型,具备广泛的应用前景。
论文链接:
https://arxiv.org/pdf/2307.05222.pdf
模型链接:
https://github.com/baaivision/Emu
Demo链接:
https://emu.ssi.plus/
0000
评论列表
共(0)条相关推荐
研究表明:ChatGPT 在某些时候存在左倾偏见
本文概要:1.研究人员发现OpenAI的ChatGPT模型在回答政治问题时表现出左倾偏见。2.ChatGPT在回答关于美国、英国和巴西左倾政党的问题时都倾向于左倾立场。3.研究人员担心ChatGPT的偏见可能影响用户的政治观点和选举结果。日前,英国诺里奇大学的研究人员开发了一种评估ChatGPT输出是否存在政治偏见的方法。站长网2023-08-19 13:07:050001可商用的ai作曲软件Soundraw 支持多种风格,不限时长
Soundraw是一个AI音乐生成工具,可以根据用户选择的心情、流派和长度自动生成美妙的歌曲。用户只需选择喜欢的音乐流派、情感氛围等,SOUNDRAW的AI系统就可以为用户生成无限的专属音乐。体验地址:https://soundraw.io/用户可以自定义歌曲,例如缩短前奏或改变副歌位置,以适应视频的需要。此外,Soundraw的音乐无需担心版权警示,支持商用。主要功能:站长网2023-08-29 11:12:450001微软与Mistral AI达成技术合作,加速模型训练和开发
**划重点:**1.🚀微软将通过Azure云服务为MistralAI提供基础AI算力,加速模型训练和开发。2.🌐微软通过Azure云服务向客户提供MistralAI的基础大模型,丰富选择,包括最新旗舰大模型MistralLarge。3.👥合作开发大模型,提供部署、微调等服务,加强MistralAI在大模型领域的竞争力。站长网2024-02-27 09:21:070000谷歌发布视频生成模型Lumiere 运动幅度和一致性表现良好
Lumiere是谷歌发布的第三个视频生成模型,这次的模型演示视频质量非常高,运动幅度和一致性表现也很好。除了视频生成,该模型还支持各种视频编辑和生成控制能力。Lumiere是一款先进的模型,专门用于将文本转换为视频,这在视频合成领域是一大挑战。为了实现这一目标,谷歌采用了一种创新的空间-时间U-Net架构。站长网2024-01-24 14:05:100000苹果完成收购加拿大公司 DarwinAI iOS18将有重大更新
据报道,苹果公司最近完成了对位于加拿大的DarwinAI公司的收购,以加强其人工智能团队。DarwinAI专注于开发人工智能技术,用于检查制造过程中的零部件,并致力于打造更高效的人工智能系统。站长网2024-03-15 09:48:100000