通义千问团队开源首个千亿参数模型Qwen1.5-110B
站长网2024-04-28 20:50:580阅
通义千问团队开源的首个千亿参数模型,Qwen1.5-110B。该模型在基础能力和 Chat 评估中表现出色,与其他同类模型相比有显著提升。Qwen1.5-110B 采用了 Transformer 解码器架构,支持多种语言,并且具有高效的分组查询注意力机制。在 Chat 评估中,该模型相较于之前的版本表现更好,显示了更大规模模型的潜力。
110B 模型的性能提升主要来自于增加的模型规模,而训练方法并未大幅改变。然而,尽管未改变训练方法,模型规模的增加依然带来了更好的 Chat 模型效果,这表明模型规模的扩展在提升性能方面具有重要意义。
Qwen1.5-110B 是通义千问系列中规模最大的模型,也是首个拥有超过1000亿参数的模型。它在与最近发布的 SOTA 模型的性能比较中表现出色,显示出在模型大小扩展方面仍有很大的提升空间。
未来,团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。
模型链接:
Qwen1.5-110B-Chat:
https://www.modelscope.cn/models/qwen/Qwen1.5-110B-Chat
Qwen1.5-110B:
https://www.modelscope.cn/models/qwen/Qwen1.5-110B
0000
评论列表
共(0)条相关推荐
2023短剧复盘与2024年的十个预测
从2019年开始,我们对短剧持续观察,至今还有许多待解的疑问:短剧对用户提供什么样的核心价值?究竟只是针对某部分特定人群的内容消费,还是对整个短视频的普遍「升级」?短剧的用户盘子究竟能有多大?内容在短剧价值链里的份额有多大的提高空间?短剧能成为新的明星产生通道吗?有没有可能形成真正意义的IP?它是否有可能演化出全新的内容叙事形态?站长网2024-02-19 09:08:290000退出印度芯片制造了?富士康回应
凤凰网科技讯北京时间7月11日消息,在周一宣布退出价值195亿美元的印度芯片制造合资项目后,富士康在印度的布局备受关注。富士康周二发表声明,再次进行了解释。谈到公司与印度金属石油企业集团Vedanta的“分手”,富士康表示,“双方都认识到这个项目进展不够快”,而且还有其他“我们无法顺利克服的挑战性分歧”,但是“这不算负面消息”。富士康没有透露更多细节。站长网2023-07-12 11:35:340000700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决
近日,全球规模最大的大模型开发工具与社区Colossal-AI,发布了全套Llama2训练、微调、推理方案,可以为700亿参数模型的训练加速195%。ChatGPT引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以AI大模型为核心的竞争力和多样化商业使用需求。站长网2023-09-04 14:28:380000ImageReward奖励模型:让文本到图像合成更符合人类偏好
StableDiffusion等生成式AI模型在文本到图像合成方面越来越受欢迎。像CLIP或BLIP这样的文本图像评分方法可以评估模型生成的图像是否与文本提示匹配,但它们并不总是符合人类的偏好和感知。站长网2023-05-08 11:19:080006Luma AI发布Discord机器人Genie,实现文本生成3D模型
划重点:LumaAI发布了一款名为Genie的Discord机器人,它可以从文本提示生成3D内容,并在大约20秒内提供四个简单的3D模型。有望在游戏开发和虚拟制作领域找到应用,简化了复杂3D资产的创建,使艺术家有更多时间进行改进。目前,Genie作为研究预览版本免费提供,但将在未来推出付费服务。站长网2023-11-03 10:42:130000