华中科技大学开源多模态大模型Monkey

站长网2023-12-09 09:51:312阅

要点:

1、Monkey 是一种高性能多模态大模型，可在复杂场景和视觉细节处理方面提供出色的性能。

2、Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，将大模型的输入分辨率能力提高到896x1344像素。

3、Monkey 采用多级描述生成方法，可以为模型提供丰富的上下文信息，以指导模型学习场景和对象之间的关联。

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。

Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息，指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试，Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力，具有广泛的应用空间。

开源地址:https://github.com/Yuliang-Liu/Monkey

论文地址:https://arxiv.org/abs/2311.06607v1

Monkey 的训练数据集质量是其能力提升的关键，研究人员生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，并将不同模型的输出融合起来，提升了大模型对图像细节的理解能力。

在模型选择方面，Monkey 采用了开源模型 Qwen-VL 作为语言解码器，以及20亿参数的 ViT-BigHuge 作为视觉编码器，避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey 在16个不同的数据集上进行了全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上，Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上，Monkey 在 TextCaps 数据集上也表现出色，证明了其对图片中文本元素的多模态理解能力。

在文档导向问答任务上，Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示，Monkey 在医学影像、卫星图像等领域具有广泛的应用空间，并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述，Monkey 是一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，具有高效率和广泛的应用空间。通过在多个数据集上进行测试，Monkey 在多模态任务上取得了出色的成绩，展现了超强的视觉信息感知和场景理解能力。未来，Monkey 将继续优化模型的感知、联想、推理和泛化能力，进一步提升其在各领域的应用价值。

华中科技大学开源多模态大模型Monkey

0002

评论列表

共(0)条

相关推荐

站长资讯
微软 GitHub 推出的更昂贵企业级 Copilot Enterprise 助手，可学习公司的私有代码
站长之家(ChinaZ.com)11月9日消息:微软旗下的GitHub于周三宣布了一款更昂贵的Copilot开发者助手——CopilotEnterprise，专为公司内部开发者设计，能够解释和提供有关内部源代码的推荐。
站长网2023-11-09 09:44:08
0003
站长资讯
抖音打击违规微短剧累计下架小程序内违规微短剧119部
抖音发布关于打击违规微短剧的公告称，近日，平台在日常巡查中发现，部分微短剧小程序含有不良价值观导向、低俗“擦边”等违规内容，部分账号涉及推广违规微短剧或大量发布同质化微短剧内容以博取流量。此类内容和行为严重破坏平台健康生态，平台将进一步规范微短剧类内容传播秩序，并持续治理违规内容。对此平台提出，微短剧及其推广内容、行为需符合以下要求:
站长网2023-11-16 11:41:48
0000
站长资讯
Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解
划重点:-GoogleAI推出了SANPO数据集，用于户外人类主观场景理解。-SANPO包括真实世界和合成数据，具有丰富的注释和多属性特征。-这个数据集将有助于研究人员开发视觉导航系统，支持视障人士，并拓展先进的视觉场景理解。
站长网2023-10-16 10:58:09
0000
站长资讯
Kyndi发布Kyndi 6.0：提升知识管理和人工智能透明度
要点:1.Kyndi宣布推出Kyndi6.0，这是其最新的生成式人工智能（GenerativeAI）答案引擎，重点是增强知识管理和提高人工智能透明度。2.Kyndi6.0中的新功能包括用于高效知识库策划的“Topics”功能，名为“Citation”的用于人工智能可解释性的用户界面，以及面向最终用户的反馈系统。
站长网2023-09-20 18:05:29
0000
站长资讯
时代的眼泪童年经典漫画杂志《知音漫客》宣布即将休刊
根据某宝店铺的预购信息页面显示，实体漫画期刊《知音漫客》《漫客绘心》《漫客绘意》将于2023年5月至10月期间休刊。资料显示，《知音漫客》是中国大陆的一本文学漫画杂志，由知音文化传媒股份有限公司出版。该杂志以漫画的形式展现文学作品，内容涵盖了小说、诗歌、散文、戏剧等多种文学形式，同时还有一些漫画专栏和读者来信互动环节。
站长网2023-05-17 17:19:51
0000