微软开源多功能视觉模型Florence-2,分割、识别一切图片!
微软Azure AI 团队宣布开源视觉模型——Florence-2。
据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。
例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。
Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。目前,Florence-2的总下载量已超过120万非常火爆。
开源地址:https://huggingface.co/microsoft/Florence-2-large
在线demo:https://huggingface.co/spaces/gokaygokay/Florence-2
Florence-2之所以拥有如此多的视觉功能和强大的泛化能力,是因为使用了一个超大的数据集FLD-5B,包含1.26亿张图像和54亿个数据标注。
同时该数据集使用了自动化图像标注技术与模型迭代的结合,通过多个模型协作确保了数据的高质量和多样性。
模型架构方面,Florence-2基于Transformer并采用了序列到序列(seq2seq)的学习方法,模型的这一部分由编码器和解码器组成,编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。
这种设计不仅提高了模型处理任务的灵活性,也使得模型能够以一种统一的方式来处理各种视觉任务。
其他关键模块包括:图像编码器,主要负责将输入图像转换为视觉token嵌入;Florence-2使用DaViT作为图像编码器,这种编码器通过注意力机制捕捉图像特征,为后续的处理提供了丰富的视觉信息。
多模态编码器-解码器,采用标准的Transformer架构,通过自注意力机制实现多模态信息的融合。这种融合使得模型能够更好地理解和生成与视觉内容相关的文本。

位置编码,为Florence-提供了区域级别的空间信息,在目标检测和分割等任务中尤为重要,使得模型能够识别图像中的具体区域。
统一表示则是Florence-2的一大创新亮点,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。
为了评测Florence-2的性能,研究人员在COCO、ADE20K、Flickr30k Entities等知名基准测试平台进行了综合评估。
结果显示,Florence-2在零样本学习和微调学习设置下都展现出了卓越的性能,例如,在COCO目标检测和实例分割任务中,它超越了先前的最佳模型,显示了更强的识别精度和分割能力。
在ADE20K语义分割测试任务中,模型也展示了优越的表现,表明其不仅在高层语义理解上有出色表现,对于底层细节的捕捉同样精准。
尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。
比你领先还比你卷!年底的Sam Altman还在四处搞钱,疯狂搞人
临近年底,美国大街小巷都沉浸在浓浓的节日氛围里,科技大厂按例shutdown,员工们也已纷纷躺平,进入双旦休假模式。不过有一个人,他是根本停不下来,反而像上了发条,开始了12月疯狂加速计划。这个人就是我们的老朋友——2023AI圈话题之王、人工智能当红炸子鸡、OpenAI首席执行官SamAltman。奥特曼搞钱搞人尾牙忙不停0000知网被处5000万罚款 因运营的14款App存在违规行为
据中国网信网消息,根据网络安全审查结论及发现的问题和移送的线索,国家互联网信息办公室依法对知网(CNKI)涉嫌违法处理个人信息行为进行立案调查。站长网2023-09-06 18:30:500000AI日报:OpenAI推搜索引擎SearchGPT;智谱推AI视频产品清影;字节发布豆包图生图模型;B站上线AIGC推荐广告标题功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、挑战谷歌!OpenAI推搜索引擎SearchGPT初期仅邀请1万人测试站长网2024-07-27 11:36:240002董宇辉改掉售货员签名 IP显示陕西
近日,东方甄选内部发生了一场激烈的争执。据报道,董宇辉已经更改了他的签名,并返回了陕西。董宇辉是东方甄选的一名知名主播,此前曾在社交媒体上以“曾经是老师,现在是售货员”的签名展示自己的身份。然而,最近有媒体发现,董宇辉已经将签名更改为“勿意,勿必,勿固,勿我”。此外,董宇辉的IP地址显示他目前位于陕西省。站长网2023-12-14 10:06:540000OpenAI、微软押注,大模型应用的尽头是AI Agent ?|对话面壁智能
你见过Agent们“吵架”么?“这个产品需要具备XX需求,为什么没有?”,“你提出的需求完全不合理,技术上达不到!”,现场顿时乱作一团,越来越多的“员工”也被卷进了这场大乱斗中。激烈的争吵声越过了屏幕外,面壁智能的测试人员通过后台日志,发现Agents正在上演一场“职场大戏”。站长网2023-11-16 14:04:060005