智源研究院开源发布新一代生成式多模态基础模型 Emu2
2023年12月21日,智源研究院发布了新一代多模态基础模型 Emu2。Emu2通过大规模自回归生成式多模态预训练,显著推动了多模态上下文学习能力的突破。
Emu2在少样本多模态理解任务上表现出色,超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多个少样本理解、视觉问答、主体驱动图像生成任务上,Emu2取得了最优性能。
Emu2是目前最大的开源生成式多模态模型,基于 Emu2微调的 Emu2-Chat 和 Emu2-Gen 模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat 可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。

Emu2使用了更简单的建模框架,并训练了从编码器语义空间重建图像的解码器,将模型规模化到37B 参数。Emu2采用大量图、文、视频的序列,建立了基于统一自回归建模的多模态预训练框架,将图像、视频等模态的 token 序列直接和文本 token 序列交错在一起输入到模型中训练。
通过对多模态理解和生成能力的评测,Emu2在少样本理解、视觉问答、主体驱动图像生成等任务上取得了最优性能。在16-shot TextVQA 等场景下,Emu2相较于 Flamingo-80B 超过12.7个点。在 DreamBench 主体驱动图像生成测试上,Emu2比之前的方法取得了显著提升。
Emu2具备全面且强大的多模态上下文学习能力,可以照猫画虎地完成多种理解和生成任务。Emu2-Chat 经过对话数据指令微调,可以精准理解图文指令,完成多模态理解任务。Emu2-Gen 可以接受任意 prompt 序列作为输入,生成高质量的图像和视频。
Emu2的训练方法是在多模态序列中进行生成式预训练,使用统一的自回归建模方式。相比于 Emu1,Emu2采用了更简单的建模框架,训练了更好的解码器,并将模型规模化到37B 参数。
项目:https://baaivision.github.io/emu2/
模型:https://huggingface.co/BAAI/Emu2
代码:https://github.com/baaivision/Emu/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
论文:https://arxiv.org/abs/2312.13286
卢伟冰:Redmi暂时不会出折叠屏手机
快科技8月3日消息,小米最近推出的两款折叠屏手机不仅将大折叠屏手机提升到了行业领先水平,同时也填补了小米在小折叠屏领域的空白。具体来说,小米MIX{tag_keyurl_4}4的折叠厚度仅为9.47mm,展开后更是薄至4.59mm,重量仅为226g,雷军甚至盛赞其手感堪比传统直屏旗舰手机,令人难以置信。站长网2024-08-03 18:15:470000AI生成系统CityDreamer:可创建无限的 3D 城市街景
文章概要:1.CityDreamer是一种生成式AI模型,可以创建无限的3D城市环境。2.通过将建筑实例生成与其他背景对象分离,可以更好地处理建筑多样性。3.使用真实城市数据集训练,可以增强生成结果的真实性。相比生成自然场景,用AI创建城市更复杂,因为可以更容易察觉结构失真。CityDreamer是一种生成式AI系统,专门用于创建开放式的、无边界的3D城市环境。站长网2023-09-06 17:36:020001零一万物开源Yi-1.5模型 在编码、数学、推理方便表现良好
零一万物(01-AI)近日发布了其模型家族的新成员——Yi-1.5(6B、9B、34B),并宣布这些模型均采用Apache2.0许可开源。Yi-1.5是Yi模型的升级版,它在编码、数学、推理和指令遵循能力方面展现出更强的性能,同时保持了在语言理解、常识推理和阅读理解方面的卓越能力。主要特点:多种规模的模型:提供6B、9B和34B三种不同规模的模型,包括基础版和聊天版。站长网2024-05-13 12:13:3200004天涨粉近百万,高途佳品就差一个董宇辉了
“董宇辉不是用来挖的,是用来爱的。”一句话,让“丈母娘”们(董宇辉粉丝群体的自称)粉上了高途佳品CEO陈向东。这几天,因为东方甄选的“小作文”风波,竞品高途佳品迎来了一场泼天富贵。据新榜旗下抖音数据工具新抖,高途佳品抖音官号“高途佳品”4天涨粉超99万,一场直播带货500万-750万,相比一周前带货成绩暴涨500倍。站长网2023-12-15 16:41:400000苹果推俄罗斯套娃式扩散模型MDM 用于生成高质量图像和视频
要点:1.苹果推出了一款新的高分辨率图像生成模型,称为俄罗斯套娃式扩散模型(MatryoshkaDiffusionModels,MDM),用于生成高质量图像和视频。2.MDM采用嵌套UNet架构,结合多分辨率损失和渐进式训练,提高了高分辨率图像生成的效率和质量,同时避免了级联或潜在扩散的复杂性。站长网2023-10-30 17:53:030000