Google发布PaLI-3视觉语言模型,性能相当于体积大10倍的模型
📌划重点:
Google Research和Google DeepMind发布了PaLI-3,这是一款仅有50亿参数的视觉语言模型(VLM)。
尽管相对较小,PaLI-3在多模态测试中超越了体积大10倍的模型,可以回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
尽管规模较小,PaLI-3的性能表现卓越,这归功于对SigLIP方法的对比预训练视觉转换器的应用。小型模型更适合培训和部署,更环保,并允许更快的模型设计研究周期。
Google Research和Google DeepMind日前发布了名为PaLI-3的新一代视觉语言模型(VLM),尽管仅拥有50亿参数,但其性能令人瞩目。与体积大10倍的竞争对手相比,PaLI-3在多模态测试中表现出色,能够回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
通常情况下,VLM由预训练的图像模型和语言模型组成,后者已经学会将文本与图像相关联。PaLI-3的架构遵循了其前身的先例,包括一个将图像编码为标记的视觉转换器,这些标记连同文本输入一起传递给一个编码器-解码器转换器,产生文本输出。
Google此前已经展示,高度扩展的视觉转换器并不一定会对仅涉及图像的任务(如ImageNet)产生更好的结果,但对于回答有关图像的问题等多模态任务,它可以取得显著的性能提升。随着PaLI-X的推出,Google将模型规模扩大到了550亿参数。
与PaLI-X相比,PaLI-3采用了一种新的训练方法,使用了对比预训练的视觉转换器(SigLIP),类似于CLIP。该视觉转换器仅拥有20亿参数,与语言模型一起,PaLI-3仅有50亿参数。
这种小型模型更适合培训和部署,对环境更友好,并允许更快的模型设计研究周期。令人印象深刻的是,尽管规模相对较小,PaLI-3在超过10个图像转语音测试中与今天的最佳VLM表现相媲美,而且在没有经过视频数据训练的情况下,在需要回答关于视频的问题的测试中也取得了新的最佳成绩。
虽然小型模型具有巨大的潜力,但模型领域的趋势似乎将朝着更大型模型的方向发展。不过,正是PaLI-3在其体积相对较小的情况下表现出色,彰显了SigLIP方法在未经结构化的多模态数据上进行视觉转换器训练的潜力。考虑到这种未经结构化的多模态数据的可用性,Google可能很快会推出更大版本的PaLI-3。
该研究团队表示,PaLI-3的性能表现,尽管仅有50亿参数,重新激发了对复杂VLM核心组成部分的研究兴趣,并有望推动新一代大规模VLM的发展。
项目网址:https://github.com/kyegomez/PALI3
抖音搜索推出独立APP:内容主要为短视频、图文等
快科技8月22日消息,据媒体报道,紧随头条搜索、悟空搜索、闪电搜索之后,抖音近期重磅推出了其第四个搜索领域的独立应用抖音搜索”,标志着抖音在内容搜索领域的进一步深耕与拓展。与传统搜索引擎如百度、夸克等以网站信息展示为核心不同,抖音搜索”独辟蹊径,聚焦于由海量博主精心创作的短视频、图文等富媒体内容,为用户带来前所未有的搜索体验。0000用AI教人说“土味情话”,RizzGPT快速冲到美国iOS生活榜二
RizzGPT美国市场快速冲榜。编辑部在日常巡榜时发现,AI驱动的“土味情话”应用RizzGPT7月11日位列美国iOS免费总榜排名58,非游戏应用免费榜排名53,生活分榜第2。站长网2023-07-12 17:26:090000重新审视,被货架电商颠覆的抖音生意逻辑
23年抖音的大动作是拉升商城GMV占比,也就是所有的渠道都在补贴商城流量,甚至是修改了投放交互规则。举个例子,之前的广告投放交互方式是点击广告“交互按钮”,直接跳转到直播间。而修改后的广告交互,点击“交互按钮”,先跳转到“猜你喜欢”,需要二次点击才能进入直播间。站长网2023-04-18 15:40:410000压力给到用户!iPhone 15生产成本增长将高达20%
快科技4月26日消息,苹果将会在今年晚些时候发布iPhone15系列新机,预计搭载最新的A17处理器,该芯片将采用台积电的3纳米工艺制造。据博主Revegnus爆料,与iPhone14Pro机型相比,iPhone15Pro系列的成本将会增加20%,标准的iPhone15机型的生产成本也将增加12%。站长网2023-04-26 22:14:410001AI视野:ChatGPT集成Canva插件;百度智能云千帆大模型平台2.0发布;讯飞星火大模型正式向全民开放
【模型动态】ChatGPT集成Canva插件Plus用户可以生成图片了!ChatGPT集成了Canva插件,使用户能够通过简单的文本提示快速创建视觉素材。Canva用户遍及全球190多个国家,月活跃用户超过7500万。要点:ChatGPT推出Canva插件,生成图片、视频等视觉内容。插件仅针对ChatGPTPlus订阅用户。数据显示Canva用户数庞大,月活跃用户超过7500万。站长网2023-09-05 16:50:510001