通义千问团队开源首个千亿参数模型Qwen1.5-110B

站长网2024-04-28 20:50:580阅

通义千问团队开源的首个千亿参数模型，Qwen1.5-110B。该模型在基础能力和 Chat 评估中表现出色，与其他同类模型相比有显著提升。Qwen1.5-110B 采用了 Transformer 解码器架构，支持多种语言，并且具有高效的分组查询注意力机制。在 Chat 评估中，该模型相较于之前的版本表现更好，显示了更大规模模型的潜力。

110B 模型的性能提升主要来自于增加的模型规模，而训练方法并未大幅改变。然而，尽管未改变训练方法，模型规模的增加依然带来了更好的 Chat 模型效果，这表明模型规模的扩展在提升性能方面具有重要意义。

Qwen1.5-110B 是通义千问系列中规模最大的模型，也是首个拥有超过1000亿参数的模型。它在与最近发布的 SOTA 模型的性能比较中表现出色，显示出在模型大小扩展方面仍有很大的提升空间。

未来，团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。

模型链接:

Qwen1.5-110B-Chat:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B-Chat

Qwen1.5-110B:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B

通义千问团队开源首个千亿参数模型Qwen15 110B

0000

评论列表

共(0)条

相关推荐

站长资讯
Champ：基于3D的人物图片转视频动画
在数字媒体和娱乐行业，如何将静态的人物图片转化为动态的视频一直是一个挑战。然而，一项名为Champ的新技术，让这个任务变得简单而高效。只需要一个原始视频和一张图片，Champ就能让图片中的人物动起来。Champ的工作原理是，首先使用SMPL模型生成渲染深度图、法线贴图和语义贴图，这些图为潜在扩散模型提供了全面的3D形状信息。然后，结合基于骨架的动作指导，为模型提供详细的动作属性。
站长网2024-03-26 01:19:05
0002
站长资讯
Meta悄然发布Llama 2 Long AI，在某些任务上击败GPT-3.5 Turbo和Claude 2
本文概要:Meta悄然发布Llama2LongAI模型，该模型在某些任务上击败了GPT-3.5Turbo和Claude2。Llama2Long是基于Meta的开源Llama2模型，经过改进后能够更好地处理长文本和复杂任务。Llama2Long的改进主要包括:增加了长文本数据集、修改了位置编码、使用了强化学习。
站长网2023-10-03 10:56:14
0001
站长资讯
企鹅FM发布下线公告将在 9 月 6 日 0 时正式停止运营
今日，企鹅FM发布公告，宣布由于业务调整，即日起将关闭用户注册及充值功能。并在2023年9月6日0时正式停止运营。企鹅FM表示，用户的原创录音可在PC端访问原创录音下载页面进行留存，下载服务将于9月6日0时停止运营后关闭，届时所有原创录音将无法收听、下载。
站长网2023-07-05 17:28:18
0000
站长资讯
上万位创作者，一起聊出了今年的抖音出圈攻略
这个国庆，“江寻千（九月）”又一次火了。在带火打铁花这项非遗传承后，“江寻千（九月）”讲述了自己成为确山铁花千年来第一位女传人的故事。截至发稿前，这条视频抖音获赞超233万。现如今，短视频在为打铁花这项千年传承赋予更多魅力的同时，也吸引到越来越多网友的喜爱。有网友评论:“铁树银花落，万点星辰开。”
站长网2024-10-10 03:29:00
0000
站长资讯
Chaos LakeDB：首个用于实时搜索、SQL和Gen AI分析的Lake数据库
要点:1.ChaosLakeDB是首个Lake数据库，用于支持生成人工智能、SQL和实时搜索。2.ChaosLakeDB的目标是解决传统数据策略和系统的问题，以释放数据潜力，适用于多个应用领域。3.该数据库允许将数据直接流入云对象存储，与各种数据流和格式整合，自动化数据管道，提高成本效益和性能。
站长网2023-10-13 11:11:20
0000