苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题
要点:
1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”(Ferret)能够在图像中准确找到交通信号灯,比GPT-4V表现更出色,提高了大模型在“看说答”任务中的精确度。
2. Ferret的关键创新在于将引用(referring)和定位(grounding)两方面的空间理解能力紧密结合,使模型能够同时理解给定区域的语义和找到对应目标。
3. Ferret采用混合区域表示方法,结合了离散坐标和连续特征,可以接受多样化的区域输入,如点、边界框和自由形状,并生成每个定位对象的坐标,这一方法在多任务评估中表现出色。
苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”(Ferret)已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。
Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。

项目地址:https://github.com/apple/ml-ferret
论文地址:https://arxiv.org/pdf/2310.07704.pdf
Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义,而定位则要求模型在图像中找到对应目标。
传统的多模态大模型通常只能单独使用引用和定位,但Ferret提出了一种新型的混合区域表示方法,使模型能够同时理解语义并找到目标。

这一方法使用混合区域表示,结合了离散坐标和连续特征。模型可以接受多样化的区域输入,包括点、边界框和自由形状,并能生成每个定位对象的坐标。
这一独特的方法使Ferret在多任务评估中表现出色,包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上,Ferret表现卓越,提高了描述图像细节的准确性,减少了模型的幻觉。
最令人骄傲的是,Ferret是由一支全华人团队开发的,包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得显著的突破。
揭秘短剧选角现状:美女如云霸总难寻,“顶流”日薪过万元
短剧正在制造“顶流”。今年来,随着小程序短剧爆红,一批“竖屏”演员也逐渐被观众熟知,实现名利双收。比如热门荧幕情侣徐艺真和孙樾,曾共同出演过多部爆款短剧,从《哎呀!皇后娘娘来打工》到《闪婚后傅先生的马甲藏不住了》,二人上演的各类豪门爱情故事不仅成为爆款,更是吸引了无数“CP粉”。图源微博“怨影影视追剧”0001余承东怒怼懂车帝后 长城等多家车企质疑懂车帝冬测
继问界对懂车帝冬季测试结果提出质疑后,长城汽车也加入了这场“战局”,宣布将于12月14日15点举行懂车帝冬季测试标准质疑沟通会。长城汽车官方海报显示,本次沟通会将聚焦于几个关键议题,包括新能源冬季测试的科学公正标准、纯电续航测试的车辆整备标准、爬坡角度测试的车辆电量标准以及爬坡距离测试的车辆制动标准。这些问题都是围绕冬季测试标准而展开,显示出对测试方法和结果的深度关切。站长网2023-12-11 14:43:560000希捷放弃开发60TB固态硬盘!将主要精力放在机械硬盘上
快科技2月12日消息,希捷在2016年的FlashMemorySummit闪存峰会上,曾展出过一款容量高达60TB的固态硬盘。这款硬盘搭载了来自美光的3D闪存,采用双端口SAS-3规格,顺序读写可达1500MB/s,随机读取可达150KIOPS。功耗也不算高,最大活动功耗仅需要15W。8年过去了,这款固态硬盘至今都没有没有推出。希捷近日公开表示,谈及了取消60TB固态硬盘的原因。0000天猫精灵发布“未来精灵XGENIE”新品牌
阿里旗下的人工智能公司发布新品牌“未来精灵”,并宣布AliGenie6.0系统将由大模型全面驱动。新的品牌主唤醒词是“小灵,小灵”。同时,天猫精灵仍将作为产品线品牌和用户可用的唤醒词,此前服务承诺不会发生变化。这个系统将从一个天猫精灵变成一个具有差异化记忆和独特性的精灵,为每个用户提供个性化的智能助手。站长网2023-09-19 14:03:390000研究:代码数据增强技术在深度学习中的应用具有巨大潜力
要点:1、代码数据增强技术在深度学习中的应用具有巨大潜力,能够提高模型性能和稳健性。2、代码数据增强面临着独特的挑战,包括代码的特殊性和多模态特性,但已经取得了一些令人鼓舞的成果。3、代码数据增强方法主要分为基于规则的技术、基于模型的技术和示例插值技术,每种方法都有其特点和适用场景。站长网2023-11-23 15:04:560001