通义千问团队开源首个千亿参数模型Qwen1.5-110B
站长网2024-04-28 20:50:580阅
通义千问团队开源的首个千亿参数模型,Qwen1.5-110B。该模型在基础能力和 Chat 评估中表现出色,与其他同类模型相比有显著提升。Qwen1.5-110B 采用了 Transformer 解码器架构,支持多种语言,并且具有高效的分组查询注意力机制。在 Chat 评估中,该模型相较于之前的版本表现更好,显示了更大规模模型的潜力。

110B 模型的性能提升主要来自于增加的模型规模,而训练方法并未大幅改变。然而,尽管未改变训练方法,模型规模的增加依然带来了更好的 Chat 模型效果,这表明模型规模的扩展在提升性能方面具有重要意义。
Qwen1.5-110B 是通义千问系列中规模最大的模型,也是首个拥有超过1000亿参数的模型。它在与最近发布的 SOTA 模型的性能比较中表现出色,显示出在模型大小扩展方面仍有很大的提升空间。
未来,团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。
模型链接:
Qwen1.5-110B-Chat:
https://www.modelscope.cn/models/qwen/Qwen1.5-110B-Chat
Qwen1.5-110B:
https://www.modelscope.cn/models/qwen/Qwen1.5-110B
0000
评论列表
共(0)条相关推荐
字节跳动与中科大联手提出多模态文档大模型DocPedia
要点:字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。站长网2023-12-04 14:45:440001OpenAI高层巨变:联创辞职总裁休假,网友:领导层成了空壳
刚刚,OpenAI高层大地震:联创JohnSchulman辞职跑路,联创&总裁GregBrockman长期休假,产品副总裁PeterDeng也被曝离职。JohnSchulman(约翰·舒曼),长年领导OpenAI强化学习团队,被誉为“ChatGPT架构师”。也是他在IlyaSustkever离开之后,临时接管了超级对齐团队。站长网2024-08-06 14:02:380000手机直接控制汽车!保时捷携手苹果推出全新CarPlay功能
快科技1月30日消息,据媒体报道,保时捷目前正与苹果共同开发了全新的CarPlay功能,此次合作将进一步提升苹果用户的使用便捷性。图源备注:图片由AI生成,图片授权服务商Midjourney据悉,此次研发的新功能将集成到AppleCarPlay中,用户可以直接通过手机屏幕对车辆的中控进行控制,完成例如更改电台、调整车辆温度和控制环境照明等操作。站长网2024-01-30 18:04:4000002023年中国民营企业500强公布:京东位居首位
全国工商联发布了“2023中国民营企业500强”榜单和《2023中国民营企业500强调研分析报告》。京东集团、阿里巴巴(中国)有限公司、恒力集团有限公司位居榜单前三位。据报告显示,2022年,民营企业500强入围门槛为275.78亿元,较上年增加12.11亿元。其中,2022年营业收入总额超过1000亿元的企业有95家。今年共有8961家年营业收入5亿元以上的企业参加了调研。站长网2023-09-12 11:24:310002Google 推出 AI Studio:开发者可基于其 Gemini 模型开发应用程序和聊天机器人
Google今天推出了一系列新的和更新的服务,将其Gemini模型系列带入开发者社区。其中一项服务是AIStudio,此前被称为MakerSuite。0007