首页站长资讯阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V

阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V

站长网2024-01-26 11:32:140阅

阿里云公布了多模态大模型的最新研究成果，继Plus版本之后，再次推出Max版本。

Qwen-VL-Max模型在视觉推理方面展现出卓越的能力，可以理解并分析复杂的图片信息，包括识人、答题、创作和写代码等任务。此外，该模型还具备视觉定位功能，可根据画面指定区域进行问答。

在基础能力方面，Qwen-VL-Max能够准确描述和识别图片信息，并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色，整体性能堪比GPT-4V和Gemini Ultra。

在文档分析（DocVQA）、中文图像相关(MM-Bench-CN)等任务上，Qwen-VL-Max同样超越了GPT-4V，达到了世界最佳水平。

此外，Qwen-VL-Max在图像文本处理方面也取得了显著进步，中英文文本识别能力显著提高。该模型支持百万像素以上的高清分辨率图和极端宽高比的图像，不仅能完整复现密集文本，还能从表格和文档中提取信息。

目前，Qwen-VL-Plus和Qwen-VL-Max限时免费向用户开放。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型API。

阿里云发布多模态大模型QwenVL Max版本性能比肩GPT4V

0000

评论列表

共(0)条

相关推荐

站长资讯
每周AI大事件 | 人脸识别管理新规发布、英伟达推AI超级芯片GH200、ChatGPT自定义指令开放
欢迎来到站长之家的[每周AI大事件]，这里记录了过去一周值得关注的AI领域热点内容，帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]1.百度网盘正式推出智能助理“云一朵”
站长网2023-08-11 09:56:22
0000
站长资讯
开源语音转字幕软件Whisper 可识别多种语种
OpenAI于2022年9月21日开源了名为Whisper的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平，并且还支持其他98种语言的自动语音辨识。Whisper系统的自动语音辨识模型经过训练，能够将各种语言的语音转化为文本，并将这些文本翻译成英文。项目地址:https://github.com/openai/whisper
站长网2023-08-16 12:09:39
0002
站长资讯
4499元起！荣耀Magic7/Magic7 Pro发布：最强AI手机一句话全自动操作
快科技10月30日消息，荣耀Magic7系列今晚正式发布，共两款机型，分别是荣耀Magic7、荣耀Magic7Pro。两款在核心配置上基本保持一致，主要是外观、影像等方面略有不同。先看外观，荣耀Magic7系列传承了前代的设计思路，采用标志性的方圆宇宙”影像模组，不过相比前代更加内敛，整体效果更精致。共有五大配色可选，分别是天际蓝、朝霞金、月影灰、雪域白和绒黑色。
站长网2024-10-30 22:02:48
0000
站长资讯
华为MatePad Pro13.2英寸9月25日发布搭载星闪NearLink技术
刚刚，华为官方宣布，将在9月25日的秋季全场景新品发布会上，发布一款全新的旗舰平板电脑——华为MatePadPro13.2英寸。华为MatePadPro13.2英寸平板电脑在连接技术方面将搭载星闪（NearLink）连接技术。
站长网2023-09-19 09:27:25
0000
站长资讯
ECOGEN:一种用于生成逼真鸟鸣的深度学习新方法
**划重点:**1.🌐利用深度学习技术，加拿大蒙克顿大学的研究人员开发了ECOGEN，这是一种能够生成逼真鸟鸣的创新方法，旨在帮助生态学家更好地监测和保护世界上一些最稀有的鸟类。
站长网2023-11-22 16:07:39
0000