苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题
要点:
1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”(Ferret)能够在图像中准确找到交通信号灯,比GPT-4V表现更出色,提高了大模型在“看说答”任务中的精确度。
2. Ferret的关键创新在于将引用(referring)和定位(grounding)两方面的空间理解能力紧密结合,使模型能够同时理解给定区域的语义和找到对应目标。
3. Ferret采用混合区域表示方法,结合了离散坐标和连续特征,可以接受多样化的区域输入,如点、边界框和自由形状,并生成每个定位对象的坐标,这一方法在多任务评估中表现出色。
苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”(Ferret)已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。
Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。
项目地址:https://github.com/apple/ml-ferret
论文地址:https://arxiv.org/pdf/2310.07704.pdf
Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义,而定位则要求模型在图像中找到对应目标。
传统的多模态大模型通常只能单独使用引用和定位,但Ferret提出了一种新型的混合区域表示方法,使模型能够同时理解语义并找到目标。
这一方法使用混合区域表示,结合了离散坐标和连续特征。模型可以接受多样化的区域输入,包括点、边界框和自由形状,并能生成每个定位对象的坐标。
这一独特的方法使Ferret在多任务评估中表现出色,包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上,Ferret表现卓越,提高了描述图像细节的准确性,减少了模型的幻觉。
最令人骄傲的是,Ferret是由一支全华人团队开发的,包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得显著的突破。
21岁单干18个月,做出98%好评、24万人同时在线的爆款
没想到,2023年最大的黑马,到年尾才登场。12月3日,一款单人开发、零宣发的独立恐怖游戏《LethalCompany(致命公司)》(EA,抢先体验版本),冲到了Steam全球热销第二。此时距离它10月24日正式上架,才刚过去一个月出头。同日,它的同时在线玩家人数也达到了新高——接近24万人。游戏在线人数,图源:SteamCharts0005报道称以色列军队开始用AI锁定空袭目标
以色列国防军(IDF)开始使用人工智能选择空袭目标和组织战时后勤工作,以应对占领领土和与敌对国家伊朗的紧张局势。IDF现在使用一个人工智能推荐系统来处理大量数据,选择空袭目标。另一个名为FireFactory的人工智能模型可以快速组织空袭行动,计算弹药装载量,为飞机和无人机分配和安排数千个目标,并提出时间表。站长网2023-07-18 08:52:070000苹果史上最经典的iPhone,有你用过的吗?其中一款无法被超越
iPhone这个词想必大家都知道吧,目前是国产手机无法超越的存在。今天位大家盘点一下iPhone最经典的几款手机吧!相信第二款还有很多小伙伴在用。站长网2023-05-23 14:35:540002思科为 Webex 团队提供新的 AI 功能
要点:Cisco在其Webex视频会议平台上推出了新的AI策略,旨在通过提供自动支持,包括消息语气修改、对接收消息的建议回复以及会议摘要,改进沟通与协作,从而更好地竞争Zoom、MicrosoftTeams和GoogleMeet等竞争对手。站长网2023-10-26 09:53:170000京东618今晚8点全面开启 罗永浩将6.18折京东直播卖房
站长之家(ChinaZ.com)5月31日消息:2023年京东618将于今晚8点正式开启,活动将持续到6月20日23:59:59点,满减力度最高满299减50。据悉,本次京东618期间,百亿补贴商品数量将达到3月份的10倍以上,且涵盖万款行业爆款,以及200款超级爆款。除了百亿补贴,每位用户每天最多还可领取三张“满200减20”补贴券,并且可在除特殊商品外的全场商品中使用。站长网2023-05-31 14:20:570000