阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V
站长网2024-01-26 11:32:140阅
阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。
Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。此外,该模型还具备视觉定位功能,可根据画面指定区域进行问答。
在基础能力方面,Qwen-VL-Max能够准确描述和识别图片信息,并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色,整体性能堪比GPT-4V和Gemini Ultra。

在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上,Qwen-VL-Max同样超越了GPT-4V,达到了世界最佳水平。
此外,Qwen-VL-Max在图像文本处理方面也取得了显著进步,中英文文本识别能力显著提高。该模型支持百万像素以上的高清分辨率图和极端宽高比的图像,不仅能完整复现密集文本,还能从表格和文档中提取信息。
目前,Qwen-VL-Plus和Qwen-VL-Max限时免费向用户开放。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。
0000
评论列表
共(0)条相关推荐
每周AI大事件 | 人脸识别管理新规发布、英伟达推AI超级芯片GH200、ChatGPT自定义指令开放
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]1.百度网盘正式推出智能助理“云一朵”站长网2023-08-11 09:56:220000开源语音转字幕软件Whisper 可识别多种语种
OpenAI于2022年9月21日开源了名为Whisper的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。项目地址:https://github.com/openai/whisper站长网2023-08-16 12:09:3900024499元起!荣耀Magic7/Magic7 Pro发布:最强AI手机 一句话全自动操作
快科技10月30日消息,荣耀Magic7系列今晚正式发布,共两款机型,分别是荣耀Magic7、荣耀Magic7Pro。两款在核心配置上基本保持一致,主要是外观、影像等方面略有不同。先看外观,荣耀Magic7系列传承了前代的设计思路,采用标志性的方圆宇宙”影像模组,不过相比前代更加内敛,整体效果更精致。共有五大配色可选,分别是天际蓝、朝霞金、月影灰、雪域白和绒黑色。站长网2024-10-30 22:02:480000华为MatePad Pro13.2英寸9月25日发布 搭载星闪NearLink技术
刚刚,华为官方宣布,将在9月25日的秋季全场景新品发布会上,发布一款全新的旗舰平板电脑——华为MatePadPro13.2英寸。华为MatePadPro13.2英寸平板电脑在连接技术方面将搭载星闪(NearLink)连接技术。站长网2023-09-19 09:27:250000ECOGEN:一种用于生成逼真鸟鸣的深度学习新方法
**划重点:**1.🌐利用深度学习技术,加拿大蒙克顿大学的研究人员开发了ECOGEN,这是一种能够生成逼真鸟鸣的创新方法,旨在帮助生态学家更好地监测和保护世界上一些最稀有的鸟类。站长网2023-11-22 16:07:390000