零一万物Yi-VL多模态语言模型上线 包括Yi-VL-34B、Yi-VL-6B两个版本
零一万物 Yi-VL 多模态语言模型是零一万物 Yi 系列模型家族的新成员,它在图文理解和对话生成方面具备卓越的能力。Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上都取得了领先成绩,展示了在复杂跨学科任务上的实力。
Yi-VL 模型分为 Yi-VL-34B 和 Yi-VL-6B 两个版本,它们在全新多模态基准测试 MMMU 中表现出色。MMMU 数据集包含了来自六大核心学科的11500个问题,涉及多种异构图像类型和交织的文本图像信息。Yi-VL-34B 在该测试集上以41.6% 的准确率超越了一系列多模态大模型,仅次于 GPT-4V,展现了强大的跨学科知识理解和应用能力。
在针对中文场景打造的 CMMMU 数据集上,Yi-VL 模型也展现了独特优势。CMMMU 包含约12000道源自大学考试、测验和教科书的中文多模态问题。Yi-VL-34B 以36.5% 的准确率紧随 GPT-4V 之后,领先于当前最前沿的开源多模态模型。
Yi-VL 模型的核心亮点之一是基于 Yi 语言模型的强大文本理解能力,它只需对图片进行对齐,就可以得到优秀的多模态视觉语言模型。
Yi-VL 模型基于开源 LLaVA 架构,包含三个主要模块:Vision Transformer(ViT)、Projection 模块和大规模语言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用于图像编码,Projection 模块实现了图像特征与文本特征空间对齐的能力,大规模语言模型提供了强大的语言理解和生成能力。
Yi-VL 模型的训练过程分为三个阶段:第一阶段使用1亿张的 “图像 - 文本” 配对数据集训练 ViT 和 Projection 模块;第二阶段将 ViT 的图像分辨率提升至448x448,并使用约2500万 “图像 - 文本” 对进行训练;第三阶段对整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。
除了 Yi-VL 模型,零一万物技术团队还验证了使用其他多模态训练方法(如 BLIP、Flamingo、EVA)基于 Yi 语言模型可以快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。
Yi-VL 模型地址:
https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai
小米NAS在做了:产品周期较长 希望大家理性等待
快科技11月16日消息,今年5月份,小米在推出万兆交换机时,海报上展示了一款万兆NAS”的示意图,引起网友期待。很多人催促小米赶紧做NAS,小米生态链总经理陈波表示,此前并没有这个产品规划,但是看到这么多用户需求后就开始着手规划了。站长网2024-11-17 10:50:170000元象推出高定制语音方案 克隆语音最快只需5分钟数据
元象推出了高度定制的语音方案,通过多重技术手段实现高自然度的语音交互体验。该方案可以应用于客服、虚拟IP、直播、有声书、语音助手等领域。在XLand剧本对话游戏中,元象为不同角色提供个性化配音,增强了游戏的代入感。方案的优势包括高定制性、高自然度、高性价比,快速生成千人千面、高保真、高稳定性的语音,节约时间和人力成本。站长网2024-02-26 11:57:240001元象XVERSE开源650亿参数通用大模型XVERSE-65B
元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。XVERSE-65B是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了Transformer网络结构,参数规模达到了650亿。站长网2023-11-06 10:41:070000Mistral震惊AI圈,最新开源模型Mixtral8x7B性能超越GPT-3.5
划重点:⦁Mistral发布了Mixtral8x7B模型,其性能超越了GPT-3.5和Meta的Llama2家族。⦁该模型在开源AI领域引起了巨大反响,但其貌似缺乏安全防护栏也可能对政策制定者和监管机构构成挑战。⦁Mistral8x7B的性能让早期用户感到惊艳,但也引发了对安全性的担忧。站长网2023-12-12 09:53:400000综艺后期狂喜:编辑一帧,整个视频跟着变!比LNA渲染快5倍,Adobe联合出品
前不久跑男为了让“kunkun”原地消失,后期只能一帧一帧的抠图。现在,只要编辑一帧,整个视频就跟着变!就是点点kunkun,整集就自动消失的那种(手动狗头)。AdobeResearch和英属哥伦比亚大学的研究人员发现,使用INVE(交互式神经视频编辑),只需在单帧上“画笔涂鸦”,就能自动应用改动到整个视频中。站长网2023-07-23 14:23:090000