华中科技大学开源多模态大模型Monkey
要点:
1、Monkey 是一种高性能多模态大模型,可在复杂场景和视觉细节处理方面提供出色的性能。
2、Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,将大模型的输入分辨率能力提高到896x1344像素。
3、Monkey 采用多级描述生成方法,可以为模型提供丰富的上下文信息,以指导模型学习场景和对象之间的关联。
Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。
Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。
开源地址:https://github.com/Yuliang-Liu/Monkey
论文地址:https://arxiv.org/abs/2311.06607v1
Monkey 的训练数据集质量是其能力提升的关键,研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。
在模型选择方面,Monkey 采用了开源模型 Qwen-VL 作为语言解码器,以及20亿参数的 ViT-BigHuge 作为视觉编码器,避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。
Monkey 在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey 在 TextCaps 数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。
在文档导向问答任务上,Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey 在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。
综上所述,Monkey 是一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey 在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。
OpenAI推出漏洞赏金计划 发现ChatGPT Bug最高奖励2万美元
今日,OpenAI宣布推出漏洞赏金计划(OpenAIBugBountyProgram)。OpenAI表示,将根据所报告问题的严重性和影响提供现金奖励。奖励从200美元到20,000美元不等。据悉,OpenAI将与漏洞赏金平台Bugcrowd合作,管理提交和奖励流程,旨在确保所有参与者获得简化的体验。站长网2023-04-12 15:03:380000百度称萝卜快跑明年开始盈利 已在11城启动载人测试运营
站长之家(ChinaZ.com)7月12日消息:百度的无人驾驶出租车服务“萝卜快跑”最近成为了热议的焦点,其服务已在包括北京、武汉、重庆、深圳和上海在内的11个城市启动了载人测试运营,吸引了社会的广泛关注。站长网2024-07-12 14:07:340000农村老人沉迷刷APP挣钱:上网7小时每天挣2块钱
快科技2月14日消息,近日,西北农林科技大学黄河流域乡村振兴研究与评估中心副教授赵祥云关中学人”分享了自己回乡的一个发现。春节发现老人经常看平台上的视频、广告等,看够一定时间就可以得到金币,每隔一段时间可以开一次宝箱,也可以得到几百个金币,看广告同样也可以得到金币,如果在看广告的同时还下单购买,就会返还几万个金币。站长网2024-02-15 09:56:100000豪掷290亿元!马斯克:特斯拉今年要买大量NVIDIA芯片
快科技6月5日消息,特斯拉CEO埃隆马斯克近日透露,特斯拉计划在今年投入高达40亿美元(约合人民币290亿元)用于采购NVIDIA芯片。马斯克在社交媒体上表示,特斯拉今年的人工智能相关支出大约为100亿美元,其中约一半将用于内部研发,包括特斯拉自行设计的AI推理计算机和传感器,以及Dojo超级计算机集群的建设。他进一步解释说,构建AI训练超级集群的成本中,NVIDIA硬件占据了大约三分之二。0000