小却强大!TinyLlama:仅用90天、3万亿token训练的 550MB AI模型
文章概要:
1. TinyLlama:一款小型但强大的AI模型,由新加坡科技设计大学的研究团队开发,仅占用550MB内存。
2. 该模型采用了稳定扩散XL技术,计划在90天内在3万亿代币的数据集上进行训练,旨在适应内存受限的边缘设备。
3. TinyLlama的成功将为实时机器翻译等多种应用提供高性能AI解决方案。
新加坡科技设计大学的研究人员正进行一项引人注目的项目,他们正在努力创建一款小型但强大的AI模型,这个模型被称为TinyLlama,它采用了一种紧凑的设计,仅占用550MB的内存。
这一模型的独特之处在于,它将在3万亿token的数据集上进行训练,这个庞大的数据集将在短短90天内完成训练。
这个项目的目标是为内存受限的边缘设备提供高性能的人工智能解决方案。越来越多的开发者要求创建更小的AI模型,因为对于内存和计算能力受限的边缘设备来说,较少的参数更加优化。此外,较小的模型还可以用来协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所言。
TinyLlama项目由新加坡科技设计大学的研究助理领导,他们试图在三万亿token的数据集上预训练一个11亿token的Llama模型。这个模型仅占用550MB的内存,团队认为它的紧凑性将使它能够满足多种应用的需求,这些应用需要受限的计算和内存占用,以实现诸如无需互联网连接的实时机器翻译等功能。
TinyLlama的训练于9月1日开始,使用了16个A100-40G GPU,团队计划在短短90天内完成训练。截止到目前,团队已完成了1050亿token的训练。
模型的构建者表示,他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”,因此它可以轻松应用于基于Llama构建的开源项目。
TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集,这些数据集曾用于训练StarCoder,这是一个代码生成模型。
一旦完成,TinyLlama将加入越来越多的较小语言模型的行列,这些模型由开发者用于构建各种应用。同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得进展。
项目网址:https://github.com/eivindbohler/tinyllama
怎样理解狭义相对论——狭义相对论简析
由于当时人们认为光是在一种称为以太的介质里传播的,而地球在以太里做各种运动,包括地球自转运动、地球公转运动、随太阳系公转运动等,这样必然导致地球相对于以太在各个方向上的速度分量不一致,这样,根据经典力学里的速度叠加原理,不同方向上的光速应该是有差异的。然而迈克耳逊莫雷实验证明,两束互相垂直的光的速度完全一致,这用传统的理论就无法解释了。站长网2023-05-24 13:15:290000再见,Linux中国
在2月1日,Linux中国社区宣布停止了运营。旗下网站、公众号等各个平台停止更新,蕴含着一个时代的结束回想起大学时期,我是一个Linux的忠诚粉丝,主要原因是喜欢Linux有和苹果一样的交互界面,安装以Linux为基础运行的ubuntu系统,可以体验到和MacOS一样的简介与系统操作。唯一的不好就是许多应用程序与游戏,并不支持这个系统。0000华为智慧搜索上线智慧搜图功能 用人话就能找出“我的”图片
华为智慧搜索近日推出了智慧搜图功能,用户只需用自然语言描述想找的照片特征,系统就能高效识别并给出相关图像。这种搜索方式可以在端侧实现,无需上传数据到云端处理。用户可以通过短描述词来形容图像,系统会快速给出推荐。如果范围太大,用户还可以增加信息标签,进一步细化描述。华为智慧搜图的优势在于其“人话”解读能力和高效搜索速度,大大提升了找信息的效率。站长网2023-07-03 18:21:330000首个多模态开放世界检测大模型MQ-Det登场,精确率提升7.8%
要点:1.MQ-Det是首个多模态开放世界检测大模型,通过融合文本描述和视觉示例查询,提升了目标检测精确率7.8%。2.MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。3.实验结果表明,MQ-Det在LVIS基准数据集上取得显著的性能提升,支持finetuning-free和小样本检测,展现了多模态查询目标检测的潜力。站长网2023-10-18 21:29:370000