微软开源多功能视觉模型Florence-2,分割、识别一切图片!
微软Azure AI 团队宣布开源视觉模型——Florence-2。
据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。
例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。
Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。目前,Florence-2的总下载量已超过120万非常火爆。
开源地址:https://huggingface.co/microsoft/Florence-2-large
在线demo:https://huggingface.co/spaces/gokaygokay/Florence-2
Florence-2之所以拥有如此多的视觉功能和强大的泛化能力,是因为使用了一个超大的数据集FLD-5B,包含1.26亿张图像和54亿个数据标注。
同时该数据集使用了自动化图像标注技术与模型迭代的结合,通过多个模型协作确保了数据的高质量和多样性。
模型架构方面,Florence-2基于Transformer并采用了序列到序列(seq2seq)的学习方法,模型的这一部分由编码器和解码器组成,编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。
这种设计不仅提高了模型处理任务的灵活性,也使得模型能够以一种统一的方式来处理各种视觉任务。
其他关键模块包括:图像编码器,主要负责将输入图像转换为视觉token嵌入;Florence-2使用DaViT作为图像编码器,这种编码器通过注意力机制捕捉图像特征,为后续的处理提供了丰富的视觉信息。
多模态编码器-解码器,采用标准的Transformer架构,通过自注意力机制实现多模态信息的融合。这种融合使得模型能够更好地理解和生成与视觉内容相关的文本。
位置编码,为Florence-提供了区域级别的空间信息,在目标检测和分割等任务中尤为重要,使得模型能够识别图像中的具体区域。
统一表示则是Florence-2的一大创新亮点,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。
为了评测Florence-2的性能,研究人员在COCO、ADE20K、Flickr30k Entities等知名基准测试平台进行了综合评估。
结果显示,Florence-2在零样本学习和微调学习设置下都展现出了卓越的性能,例如,在COCO目标检测和实例分割任务中,它超越了先前的最佳模型,显示了更强的识别精度和分割能力。
在ADE20K语义分割测试任务中,模型也展示了优越的表现,表明其不仅在高层语义理解上有出色表现,对于底层细节的捕捉同样精准。
尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。
华为申请ADNCHAT商标
天眼查App显示,近日,华为技术有限公司申请注册2枚“ADNCHAT”商标,国际分类为科学仪器、网站服务,目前商标状态均为申请中。据介绍,自动驾驶网络(ADN)是华为通信网络2030的核心战略,为网络的最终使用者提供“零等待、零接触、零故障”的新型数字化网络服务体验,为网络的运营运维者打造“自配置、自修复、自优化”的智能网络和高效运维能力,是华为持之以恒所追求的目标。站长网2023-07-18 03:17:010001小米澎湃OS 2带来全新HyperCore内核 卢伟冰:一触快、一眼新
小米集团总裁卢伟冰近日在社交媒体上分享了小米澎湃OS2的最新进展,强调了其基础体验的全面升级。他指出,澎湃OS2带来了“一触即快”和“一眼即新”的显著变化,这得益于小米在系统底层的重构和统一融合。0000OpenAI公布ChatGPT安全框架:跟踪、评估、安全基线等
12月19日,OpenAI在官网公布了“准备框架”(PreparednessFramework)测试版。该文档详细介绍了OpenAI是如何保证ChatGPT等产品的安全防护措施、开发和部署流程。OpenAI表示,随着大模型的功能迭代不断完善,其能力已经开始接近初级AGI(通用人工智能),安全已成为开发AI模型的重中之重。0002Synclabs发布唇型同步模型Sync-1.6.0 减少闪烁现象
近日,人工智能公司Synclabs发布了最新版本的唇型同步模型——Sync-1.6.0。这款新模型进行了重大升级,能够产生平滑、准确的唇形,同时减少视频帧之间的闪烁现象,为用户提供更加自然流畅的音视频体验。站长网2024-03-25 19:10:530002Anthropic 宣布 Claude AI 重大更新:全新界面和新的定制功能
站长之家(ChinaZ.com)10月19日消息:Anthropic公司日前宣布对其iOS和Android应用进行了重要更新,为移动用户带来了全新的界面和增强的功能。这次更新还首次推出了iPad应用,旨在为那些使用ClaudeAI进行个人和专业任务的用户提供更好的体验。0000