首页站长资讯小却强大！TinyLlama：仅用90天、3万亿token训练的 550MB AI模型

小却强大！TinyLlama：仅用90天、3万亿token训练的 550MB AI模型

站长网2023-09-08 14:44:520阅

文章概要:

1. TinyLlama:一款小型但强大的AI模型，由新加坡科技设计大学的研究团队开发，仅占用550MB内存。

2. 该模型采用了稳定扩散XL技术，计划在90天内在3万亿代币的数据集上进行训练，旨在适应内存受限的边缘设备。

3. TinyLlama的成功将为实时机器翻译等多种应用提供高性能AI解决方案。

新加坡科技设计大学的研究人员正进行一项引人注目的项目，他们正在努力创建一款小型但强大的AI模型，这个模型被称为TinyLlama，它采用了一种紧凑的设计，仅占用550MB的内存。

这一模型的独特之处在于，它将在3万亿token的数据集上进行训练，这个庞大的数据集将在短短90天内完成训练。

这个项目的目标是为内存受限的边缘设备提供高性能的人工智能解决方案。越来越多的开发者要求创建更小的AI模型，因为对于内存和计算能力受限的边缘设备来说，较少的参数更加优化。此外，较小的模型还可以用来协助解码更大的模型，正如前特斯拉高级AI总监Andrej Karpathy所言。

TinyLlama项目由新加坡科技设计大学的研究助理领导，他们试图在三万亿token的数据集上预训练一个11亿token的Llama模型。这个模型仅占用550MB的内存，团队认为它的紧凑性将使它能够满足多种应用的需求，这些应用需要受限的计算和内存占用，以实现诸如无需互联网连接的实时机器翻译等功能。

TinyLlama的训练于9月1日开始，使用了16个A100-40G GPU，团队计划在短短90天内完成训练。截止到目前，团队已完成了1050亿token的训练。

模型的构建者表示，他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”，因此它可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集，这些数据集曾用于训练StarCoder，这是一个代码生成模型。

一旦完成，TinyLlama将加入越来越多的较小语言模型的行列，这些模型由开发者用于构建各种应用。同时，EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得进展。

项目网址:https://github.com/eivindbohler/tinyllama

小却强大TinyLlama仅用90天3万亿token训练的550MBAI模型

0000

评论列表

共(0)条

相关推荐

站长资讯
英伟达和AMD股价随着人工智能芯片激增而创下历史新高
AMD和英伟达股价在周四创下历史新高，投资者继续争相购买这些制造人工智能芯片的公司的股票。图源备注：图片由AI生成，图片授权服务商Midjourney
站长网2024-01-19 14:15:04
0000
站长资讯
研究发现，用户难以区分AI生成和人类制造的假新闻
**划重点:**1.📊研究发现，近千名参与者对与COVID-19有关的20篇假新闻进行评分，结果显示人工智能生成的假新闻在感知准确度上略低于人类制造的。2.🔄调查显示，大约12%的参与者愿意在社交媒体上分享这些假新闻，而人工智能生成的和人类制造的假新闻在分享意愿上没有明显差异。
站长网2024-02-26 10:19:24
0000
站长资讯
任正非称华为产品不够先进不会拿出来卖：卖不了高价养不活队伍
近日，任正非在与南开大学新闻与传播学院院长刘亚东的访谈中透露了华为当前的经营状况和发展思路。任正非强调，华为不会拿出不够先进的产品进行销售，卖不了高价，我也养不活队伍。他坦言，在当前严峻的外部环境下，华为将面临越来越多的困难，但同时也将迎来更加繁荣的局面。
站长网2023-09-22 09:58:39
0001
站长资讯
Redmi K70 Pro、K70标准版今日开售首销5分钟销量破60万台
今日10点，RedmiK70Pro和K70标准版正式开售。据小米官方公布数据，K70系列，首销5分钟销量突破60万台。RedmiK70Pro和K70标准版这两款手机都搭载了强大的硬件配置和小米澎湃OS操作系统。
站长网2023-12-01 10:40:12
0000
站长资讯
孙燕姿回应「AI 孙燕姿」：没有任何技术能预测人类感受
站长之家(ChinaZ.com)5月23日消息:近期在各大视频平台上，「冷门歌手孙燕姿」靠着各种各样的AI「分身」翻唱不同曲风的歌曲，作品火爆出圈。据了解，目前B站与「AI孙燕姿」相关的视频已有上千条。AI孙燕姿用的核心技术主要来自于一个叫做So-vits的开源项目。按照目前的技术，歌手的唱腔、技巧和风格还很难完全模仿，但音色已经基本能1:1复制了。
站长网2023-05-23 14:07:23
0001