首页站长资讯Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入

Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入

站长网2023-08-24 20:13:371阅

本文概要:

1. Hugging Face 推出开源多模态 AI 模型 IDEFICS，支持图像和文本输入。

2. IDEFICS 基于 DeepMind 的 Flamingo 视觉语言模型，表现与专利模型相当。

3. IDEFICS 有90亿和800亿参数版本，支持生成连贯的文本。

最近， Hugging Face 推出了一个名为 IDEFICS 的开源多模态 AI 模型，它可以接受图像和文本作为输入，并生成连贯的文本输出。

IDEFICS 是一个强大的视觉语言模型，拥有高达800亿的参数量，功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。

IDEFICS 基于 DeepMind 开发的 Flamingo 模型，后者是一种目前最先进的视觉语言模型，但尚未对外开源。相比之下，IDEFICS 作为 Flamingo 的开源实现版本，其测试结果显示在各类图像理解任务上其表现与 Flamingo 相当。

为训练 IDEFICS，Hugging Face 利用了多种公开的数据集，还额外构建了一个包含1.4亿张图像的大规模图像-文本数据集。

IDEFICS 有两个版本，包括90亿参数的基础版和800亿参数的大模型版，可以处理不同的应用场景。

IDEFICS 的推出为研究人员和开发者提供了一个强大的开源视觉语言模型，相比专利系统如 GPT-3，它提供了更大的灵活性。同时，IDEFICS 也显示出生成式模型处理多模态输入的潜力。

未来如果能进一步提升多模态理解和生成能力，将可以大幅推动诸如机器人、自动驾驶等多模态 AI 应用的发展。

项目网址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

HuggingFace推开源多模态AI模型IDEFICS支持图像文本输入

0001

评论列表

共(0)条

相关推荐

红米REDMI Book 16 2025官宣：全新酷睿处理器、19.05小时长续航
快科技12月26日消息，红米REDMIBook162025笔记本今日官宣，将于开年的Turbo4新品发布会上发布。据悉，REDMIBook162025首批搭载全新的英特尔酷睿处理器，支持AI调度长续航，拥有19.05小时超长续航，适配小米澎湃OS2，支持小米澎湃智联。
站长网站长资讯2024-12-26 13:48:44
0000
站长资讯
Gartner调查显示，生成式AI已成为企业面临的新兴风险
本文概要:1.生成式AI成为企业风险管理人员最关注的问题之一。2.生成式AI的大规模可用性带来潜在风险，如知识产权、数据隐私和网络安全问题。3.第三方生存能力是企业最重要的新兴风险之一，可能导致供应商中断或倒闭。
站长网2023-08-09 20:03:24
0000
站长资讯
抖音直播治理导流欺诈行为 5月以来回收5.6W+主播直播权限
今日，抖音直播发布了治理导流欺诈行为的处置公示第二期内容，5月以来，平台对涉及诈骗、赌博、低俗色情信息服务的56，138个主播回收直播权限。
站长网2023-06-30 22:52:31
0001
户均网速491.5Mbps！中国宽带现状：百兆普及率94.8%、千兆用户占比近三成
中国电信市场最新动态根据中国信通院发布的数据，截至2024年7月末，中国基础电信企业移动数据流量业务收入为3817亿元人民币，同比下降2.1%。宽带网络普及率提升
站长网站长资讯2024-08-28 16:01:21
0000
站长资讯
首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动
要点:LEO是首个具身通才智能体，以GPT-4等大语言模型为基础，实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。该研究填补了多模态大语言模型在三维世界任务上的空白，通过高效学习策略和数据生成方法，构建了一个能够在真实场景中应用的通才智能体。LEO在三维场景问答、物体描述、具身推理等任务上表现优异，具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。
站长网2023-12-08 18:51:35
0000