Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入
站长网2023-08-24 20:13:370阅
本文概要:
1. Hugging Face 推出开源多模态 AI 模型 IDEFICS,支持图像和文本输入。
2. IDEFICS 基于 DeepMind 的 Flamingo 视觉语言模型,表现与专利模型相当。
3. IDEFICS 有90亿和800亿参数版本,支持生成连贯的文本。
最近, Hugging Face 推出了一个名为 IDEFICS 的开源多模态 AI 模型,它可以接受图像和文本作为输入,并生成连贯的文本输出。
IDEFICS 是一个强大的视觉语言模型,拥有高达800亿的参数量,功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。
IDEFICS 基于 DeepMind 开发的 Flamingo 模型,后者是一种目前最先进的视觉语言模型,但尚未对外开源。相比之下,IDEFICS 作为 Flamingo 的开源实现版本,其测试结果显示在各类图像理解任务上其表现与 Flamingo 相当。
为训练 IDEFICS,Hugging Face 利用了多种公开的数据集,还额外构建了一个包含1.4亿张图像的大规模图像-文本数据集。
IDEFICS 有两个版本,包括90亿参数的基础版和800亿参数的大模型版,可以处理不同的应用场景。
IDEFICS 的推出为研究人员和开发者提供了一个强大的开源视觉语言模型,相比专利系统如 GPT-3,它提供了更大的灵活性。同时,IDEFICS 也显示出生成式模型处理多模态输入的潜力。
未来如果能进一步提升多模态理解和生成能力,将可以大幅推动诸如机器人、自动驾驶等多模态 AI 应用的发展。
项目网址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground
0000
评论列表
共(0)条相关推荐
调查:超半数英国大学生使用AI完成学业
**划重点:**1.📊调查显示超过半数英国大学生在完成学业时使用AI,其中53%承认使用ChatGPT等工具。2.🌐意大利数据保护机构指责OpenAI违反欧洲GDPR法规,称其AI模型违反数据隐私法。3.⚖律师再次因引用ChatGPT虚构的案例而陷入麻烦,一名纽约律师因此引发的案件被驳回。站长网2024-02-06 10:59:250000QuestMobile半年报:小程序领域,支付宝增速超微信、抖音崛起
近日,第三方数据机构QuestMobile发布《2023全景生态流量半年报告》,报告指出,在互联网流量“存量博弈”的环境下,小程序正成为重要的引流方式,以及各家突围的关键变量。站长网2023-07-14 16:20:420001ChatGPT突然上线APP!iPhone可用、速度更快,GPT-4用量限制疑似取消
ChatGPT,现在有iOS版本了!就在几个小时前,OpenAI官方突然大放送,官宣ChatGPT正式推出iOSAPP。瞬间冲上苹果商店免费榜第二名,效率榜第一名。(第一是拼多多海外版)这回,真的是ChatGPT的iPhone时刻了。想象一下,全球有着几十亿智能手机用户,占到人口总数将近90%。而很快大家都能在手机上体验ChatGPT了。看得人们直呼:见证历史!站长网2023-05-19 08:59:480001谷歌正在为 Android 开发类似 Continuity 的功能
在“Androidvs.Apple”争论中,苹果的一大卖点是苹果设备可以轻松地连接在一起。无论是Sidecar、Handoff、通用剪贴板等功能,还是呼叫连续性,它都是一个非常无缝的生态系统。不过,苹果可能会在这场战斗中失去一点优势,因为谷歌正在开发一项非常类似的功能,让用户可以将所有Android设备连接在一起。站长网2023-08-15 10:45:510000澳大利亚警方运用AI分析数据 识别洗钱和诈骗活动
文章概要:1.澳大利亚联邦警察(AFP)开始使用人工智能分析监视许可数据,以帮助识别洗钱和潜在欺诈活动。2.AFP在提交给政府的文件中表示,他们的人工智能技术使用迄今有限,但有望改善警务工作的效率。3.不过其他组织存在对人工智能使用的担忧,包括大型语言模型的使用和对数据的透明性要求。站长网2023-09-22 11:00:140000