阿里云发布通义千问2.5版性能赶超GPT-4 Turbo

站长网2024-05-09 19:41:540阅

阿里云今日正式发布通义千问2.5版本，该版本在模型性能上全面赶超了GPT-4Turbo，展现了其强大的技术实力。与此同时，通义千问最新开源的1100亿参数模型Qwen1.5-110B在多个基准测评中取得了卓越成绩，超越了Meta的Llama-3-70B模型，成为开源领域的新星。

与通义千问2.1版本相比，2.5版本在理解能力、逻辑推理、指令遵循和代码能力等方面均有了显著提升。具体而言，理解能力提升了9%，逻辑推理能力提升了16%，指令遵循能力提升了19%，而代码能力则提升了10%。这一飞跃性的进步使得通义千问2.5在权威基准OpenCompass上的得分与GPT-4Turbo持平，证明了其在自然语言处理领域的领先地位。

除了通义千问2.5的发布，通义还推出了最新款开源模型Qwen1.5-110B。这款拥有1100亿参数的模型在MMLU、TheoremQA、GPQA等基准测评中均表现出色，成功超越了Meta的Llama-3-70B模型。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上，Qwen1.5-110B更是荣登榜首，进一步巩固了通义开源系列在业界的领先地位。

通义的多模态模型和专有能力模型同样令人瞩目。其中，通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越了Gemini Ultra和GPT-4V，其强大的视觉理解能力已经在实际应用中得到了广泛验证。而通义千问代码大模型CodeQwen1.5-7B则是HuggingFace代码模型榜单Big Code的头名选手，展现了其在代码生成和代码理解方面的卓越能力。

这一模型的推出不仅满足了开发者对于高效代码生成的需求，也为企业客户提供了更为智能的代码管理和优化解决方案。

阿里云发布通义千问25版 性能赶超GPT4 Turbo

0000

评论列表

共(0)条

相关推荐

魔改Stable Diffusion，开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张RGB图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
站长网站长资讯2024-01-02 09:20:33
0001
站长资讯
创纪录！小米通讯公开发行10亿元债券获5.4倍超额认购
快科技7月24日消息，小米集团副总裁，首席财务官林世伟宣布了小米创造的一个新记录。昨日，小米通讯成功公开发行科技创新高成长产业公司债券，发行规模10亿元，期限3年，主体评级AAA。该债券全场获得5.4倍的超额认购，最终发行的票面利率2.00%，创智能制造行业企业同期限公司债的新低记录。评级AAA反映公司偿还债务的能力很强，基本不受不利经济环境的影响，违约风险极低。
站长网2024-07-25 02:36:14
0001
站长资讯
AI风又吹到万亿服装产业，带来噱头还是变革？
自2023年以来，我国服装消费虽然呈现恢复态势，但是回暖速度远弱于消费大盘。限额以上服装鞋帽针纺类1-7月零售额同比2021年仅增长1.3%，而社零总额同比增长7.1%。现阶段，服装行业上下游各企业均面临着企业效益下降、消费者需求波动等一系列因素带来的挑战，加快供应链数字化从而提升企业平稳运营能力已成为行业共识。第一新声数据显示，超7成传统服装企业正通过新技术赋能企业数字化转型。
站长网2023-09-20 13:55:08
0000
站长资讯
全自动框架T2Hair：可用于创建高保真 3D 头发模型
CT2Hair是一个基于计算机断层扫描（CT）的全自动框架，用于创建高保真的3D头发模型。该框架通过估计头发区域的密度体积、提取有用的导引发丝、使用神经插值方法填充头皮以及优化细化等步骤，实现了从真实世界的头发假发中重建各种发型的图形。项目地址:https://yuefanshen.net/CTHair
站长网2023-08-07 18:15:49
0000
这个方向有赚钱机会，至少10年以上！
各位村民好，我是村长。因某大牌主播79块钱一句话嘲讽的话，让无数网友开始自发为国货品牌种草，也让不少国货品牌在此期间，业绩暴涨，一度缺货。许多人早已尘封的国货消费记忆开始被唤醒，开始关注其中一些国货品牌。01这波流量能延续多久?这几年，我们了解国货品牌的方式令人遗憾，尤其是一些集体性的国货助威、消费行为。
站长网站长资讯2023-09-20 11:20:44
0000