华中科技大学开源多模态大模型Monkey
要点:
1、Monkey 是一种高性能多模态大模型,可在复杂场景和视觉细节处理方面提供出色的性能。
2、Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,将大模型的输入分辨率能力提高到896x1344像素。
3、Monkey 采用多级描述生成方法,可以为模型提供丰富的上下文信息,以指导模型学习场景和对象之间的关联。
Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。
Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。
开源地址:https://github.com/Yuliang-Liu/Monkey
论文地址:https://arxiv.org/abs/2311.06607v1
Monkey 的训练数据集质量是其能力提升的关键,研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。
在模型选择方面,Monkey 采用了开源模型 Qwen-VL 作为语言解码器,以及20亿参数的 ViT-BigHuge 作为视觉编码器,避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。
Monkey 在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey 在 TextCaps 数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。
在文档导向问答任务上,Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey 在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。
综上所述,Monkey 是一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey 在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。
微信提高金融类直播规范标准:要求金融类直播不得展示K线 须真人出镜
微信官方近日更新了《视频号金融科普类直播准入标准》,该标准于2023年12月18日生效。根据新规定,主播在进行金融科普类直播时,必须由真人出镜。此外,未经腾讯书面许可,主播不得通过直播诱导用户进行投资。同时,主播在进行金融科普类直播时,不得通过直播间输出具体的投资建议,包括但不限于对具体的行业或股票板块等进行分析预测,对未来的行情下定论,展示K线图并对其中的数值、走势等进行讲解分析。0000Design2Code:提供设计图,让多模态LLM自动生成前端代码
划重点:⭐️生成AI在近年来取得了快速进展,具有前所未有的多模态理解和代码生成能力。⭐️研究对可视化设计转换为代码实现的任务进行了系统研究,提出了一套自动评估指标。⭐️GPT-4V在任务中表现出色,生成的网页在视觉外观和内容方面有望取代原始参考网页。站长网2024-03-07 16:44:190000英伟达GH200在MLPerf 3.1中惊艳亮相,性能相比H100跃升17%
要点:英伟达最新发布的GH200GraceHopper超级芯片,在MLPerf3.1基准测试中首次亮相。GH200的性能比单个H100提升了17%,在各测试项目上表现均超过了H100。MLPerfInference3.1新增了大语言模型GPT-J的推理测试,以及更新后的DLRM推理测试。站长网2023-09-12 15:31:060001年轻人在刮刮乐直播间等“暴富”
在直播间看别人刮彩票是怎样的体验?曾几何时,作者认为刮彩票只是属于部分群体的小众爱好,但在抖音上,话题#刮刮乐的播放量已经超过58亿次,延伸话题#刮刮乐中奖啦的播放量也有18亿次。#刮刮乐抖音截图站长网2023-07-19 22:08:010001《卫报》对 OpenAI 董事会改组的看法:变革为股东带来的利益多于为人类带来的利益
日前《卫报》发表社论表示,OpenAI是最著名的聊天机器人ChatGPT的开发商,近期的企业混乱引发了对人工智能(AI)未来的深思。公司首席执行官SamAltman的解雇和重新聘用,引发了人们对于OpenAI是否将成为另一个以利润为导向的企业的疑问。站长网2023-11-27 09:01:040000