首页站长资讯中文LLaMA-2刷榜，开源可商用！千元预算，训练半天，效果媲美主流大模型

中文LLaMA-2刷榜，开源可商用！千元预算，训练半天，效果媲美主流大模型

站长网2023-09-25 22:05:221阅

【新智元导读】最强中文版LLaMA-2来了!15小时训练，仅需数千元算力，性能碾压同级中文汉化模型，开源可商用。

LLaMA-2相较于LLaMA-1，引入了更多且高质量的语料，实现了显著的性能提升，全面允许商用，进一步激发了开源社区的繁荣，拓展了大型模型的应用想象空间。

然而，从头预训练大模型的成本相当高，被戏称「5000万美元才能入局」，这使得许多企业和开发者望而却步。那么，如何以更低的成本构建自己的大型模型呢?

作为大模型降本增效的领导者，Colossal-AI团队充分利用LLaMA-2的基础能力，采用高效的训练方法，仅使用约8.5B token数据、15小时、数千元的训练成本，成功构建了性能卓越的中文LLaMA-2，在多个评测榜单性能优越。

相较于原始LLaMA-2，在成功提升中文能力的基础上，进一步提升其英文能力，性能可与开源社区同规模预训练SOTA模型媲美。

秉承Colossal-AI团队一贯的开源原则，完全开源全套训练流程、代码及权重，无商用限制，并提供了一个完整的评估体系框架ColossalEval，以实现低成本的可复现性。

此外，相关方案还可迁移应用到任意垂类领域和从头预训练大模型的低成本构建。

开源代码与权重:https://github.com/hpcaitech/ColossalAI

性能表现

注:基于ColossalEval评分，括号中分数来源于对应模型官方发布的榜单分数，C-Eval分数来源于官网Leaderboard。

在常见的中、英文评测榜单，可以看到，在英文MMLU榜单中，Colossal-LLaMA-2-7B-base在低成本增量预训练的加持下，克服了灾难性遗忘的问题，能力逐步提升（44.47->53.06），在所有7B规模的模型中，表现优异。

在中文榜单中，主要对比了CMMLU， AGIEVAL， GAOKAO与 C-Eval，效果远超基于LLaMA-2的其他中文汉化模型。尤其是与原始LLaMA-2相比，Colossal-LLaMA-2在中文能力上有了质的飞跃（CMMLU:32.97->49.89）。

即使与其他采用中文语料，可能花费上千万元成本，从头预训练的各大知名模型相比，Colossal-LLaMA-2在同规模下仍表现抢眼。

而通过SFT、LoRA等方式微调，能有效注入基座模型的知识与能力十分有限，不能较好的满足高质量领域知识或垂类模型应用的构建的需求。

为了更好的评估模型的性能，Colossal-AI团队不仅仅依赖于量化的指标，还对于模型的不同方面进行了人工的评估，以下是一些例子:

从整个训练的Loss记录来看，在利用Colossal-AI系统降本增效能力的同时，模型收敛性也得到充分保证，仅通过约8.5B tokens（85亿tokens），数千元算力成本，让模型达到如此惊艳的效果。

而市面上的大模型动辄使用几万亿token进行训练才有效果保证，成本高昂。

那么Colossal-AI团队是如何把训练成本降低，并达到如此的效果的呢?

词表扩充与模型初始化

LLaMA-2原始词表并未针对中文做特定优化，所包含的中文词有限，导致在中文语料上理解力不足。因此，首先对LLaMA-2进行了词表的扩充。

Colossal-AI团队发现:

词表的扩充不仅可以有效提升字符串序列编码的效率，并且使得编码序列包含更多的有效信息，进而在篇章级别编码和理解上，有更大的帮助。

然而，由于增量预训练数据量较少，扩充较多的单词反而会导致某些单词或组合无实际意义，在增量预训练数据集上难以充分学习，影响最终效果。

过大的词表会导致embedding相关参数增加，从而影响训练效率。

因此，经过反复实验，同时考虑了训练的质量与训练的效率，Colossal-AI团队最终确定将词表从LLaMA-2原有的32000扩充至69104。

有了扩充好的词表，下一步就是基于原有的LLaMA-2初始化新词表的 embedding。

为了更好的迁移LLaMA-2原有的能力，实现从原有LLaMA-2到中文LLaMA-2能力的快速迁移，Colossal-AI团队利用原有的LLaMA-2的权重，对新的embedding进行均值初始化。

如此一来，既保证了新初始化的模型在初始状态下，英文能力不受影响，又可以尽可能的无缝迁移英文能力到中文上。

数据构建

为了更大程度的降低训练的成本，高质量的数据在其中起着关键作用，尤其是对于增量预训练，对于数据的质量，分布都有着极高的要求。

为了更好的筛选高质量的数据，Colossal-AI团队构建了完整的数据清洗体系与工具包，以便筛选更为高质量的数据用于增量预训练。

Colossal-AI团队数据治理的完整流程

除了常见的对数据进行启发式的筛选和去重，还对重点数据进行了打分和分类筛选。

合适的数据对于激发LLaMA-2的中文能力，同时克服英文的灾难性遗忘问题，有着至关重要的作用。

最后，为了提高训练的效率，对于相同主题的数据，Colossal-AI团队对数据的长度进行了排序，并根据4096的最大长度进行拼接。

训练策略

多阶段训练

在训练方面，针对增量预训练的特点，Colossal-AI团队设计了多阶段，层次化的增量预训练方案，将训练的流程划分为三个阶段:

大规模预训练阶段:目标是通过大量语料训练，使得模型可以产出相对较为流畅的文本。该阶段由LLaMA-2完成，经过此阶段，模型已经掌握大量英文知识，并可以根据Next Token Prediction输出流畅的结果。

中文知识注入阶段:该阶段依赖于高质量的中文知识，一方面增强了模型对于中文知识的掌握程度，另一方面提升了模型对于新增中文词表中单词的理解。

相关知识回放阶段:该阶段致力于增强模型对于知识的理解与泛化能力，缓解灾难性遗忘问题。

多阶段相辅相成，最终保证模型在中英文的能力上齐头并进。

分桶训练

增量预训练对于数据的分布极为敏感，均衡性就尤为重要。

因此，为了保证数据的均衡分布，Colossal-AI团队设计了数据分桶的策略，将同一类型的数据划分为10个不同的bins。

在训练的过程中，每个数据桶中均匀的包含每种类型数据的一个bin，从而确保了每种数据可以均匀的被模型所利用。

评估体系

为了更好的评估模型的性能，Colossal-AI团队搭建了完整的评估体系——ColossalEval，希望通过多维度对大语言模型进行评估。

流程框架代码完全开源，不仅支持结果复现，也支持用户根据自己不同的应用场景自定义数据集与评估方式。

评估框架特点总结如下:

涵盖针对于大语言模型知识储备能力评估的常见数据集如MMLU，CMMLU等。针对于单选题这样的形式，除了常见的比较ABCD概率高低的计算方式，增加更为全面的计算方式，如绝对匹配，单选困惑度等，以求更加全面的衡量模型对于知识的掌握程度。

支持针对多选题的评估和长文本评估。

支持针对于不同应用场景的评估方式，如多轮对话，角色扮演，信息抽取，内容生成等。用户可根据自己的需求，有选择性的评估模型不同方面的能力，并支持自定义prompt与评估方式的扩展。

构建通用大模型到垂类大模型迁移的桥梁

由Colossal-AI团队的经验来看，基于LLaMA-2构建中文版模型，可基本分为以下流程:

那么这套方案是否可以复用呢?

答案是肯定的，并且在业务落地的场景中是非常有意义的。

随着ChatGPT掀起的人工智能浪潮，全球各大互联网巨头、AI公司、创企、高校和研究机构等，纷纷在通用大模型的赛道上策马狂奔。

然而，通用大模型通用能力的背后往往是针对特定领域内知识的不足，因此，在实际落地上，大模型幻觉的问题就变的尤为严重。

针对业务微调固然可以有一定的收获，但垂类大模型的缺失导致应用落地存在性能瓶颈。

如果可以快速低成本构造一个垂类大模型，再基于垂类大模型进行业务微调，一定能在业务落地上更进一步，占得先机与优势。

将以上流程应用在任意领域进行知识迁移，即可低成本构建任意领域垂类基座大模型的轻量化流程:

对于从头预训练构建基础大模型，也可借鉴上述经验与Colossal-AI降本增效能力，以最低成本高效完成。

系统优化

上述Colossal-LLaMA-2的亮眼表现和成本优势，构建在低成本AI大模型开发系统Colossal-AI之上。

Colossal-AI基于PyTorch，可通过高效多维并行、异构内存等，降低AI大模型训练/微调/推理的开发与应用成本，提升模型任务表现，降低GPU需求等。

仅一年多时间便已在GitHub开源社区收获GitHub Star3万多颗，在大模型开发工具与社区细分赛道排名世界第一，已与世界500强在内的多家知名厂商联合开发/优化千亿/百亿参数预训练大模型或打造垂类模型。

Colossal-AI云平台

为了进一步提高AI大模型开发和部署效率，Colossal-AI已进一步升级为Colossal-AI云平台，以低代码/无代码的方式供用户在云端低成本进行大模型训练、微调和部署，快速将各种模型接入到个性化的应用中。

目前Colossal-AI云平台上已经预置了Stable diffusion， LLaMA-2等主流模型及解决方案，用户只需上传自己的数据即可进行微调。

同时，也可以把自己微调之后的模型部署成为API，以实惠的价格使用A10， A800， H800等GPU资源，无需自己维护算力集群以及各类基础设施。

此外，更多应用场景、不同领域、不同版本的模型、企业私有化平台部署等也正在不断迭代。

ColossalAI云平台现已开启公测，注册即可获得代金券，欢迎参与并提出反馈。

Colossal-AI云平台:

platform.luchentech.com

Colossal-AI云平台文档:

https://docs.platform.colossalai.com/

Colossal-AI开源地址:

https://github.com/hpcaitech/ColossalAI

参考资料:

https://www.hpc-ai.tech/blog/one-half-day-of-training-using-a-few-hundred-dollars-yields-similar-results-to-mainstream-large-models-open-source-and-commercial-free-domain-specific-LLM-solution

中文LLaMA2刷榜开源可商用千元预算训练半天效果媲美主流大模型

0001

评论列表

共(0)条

相关推荐

站长资讯
直播电商进入到下半场后，为什么店播爆发了？
电商平台大乱斗背景下，店播正在成为行业的新增量。双11结束后，从各大平台的战报不难看出，店播无疑成为了今年的最大亮点。前有淘宝38个店播破亿数据，后有京东采销直播迅速出圈。随着直播电商的发展，店播的模式在各个平台呈现出不同的发展路径和阶段。综合来看，在店播的发展过程中，经历了哪些关键节点?品牌是如何看待店播与达播之间的关系的?这背后，又代表着怎样的行业趋势?
站长网2023-11-24 13:55:45
0000
站长资讯
MetaHuman：一键创建超逼真数字人无需高配置硬件
MetaHuman是一个创造高度逼真的数字人类角色的框架，它具备完整绑定和动画制作功能。使用MetaHumanCreator，用户可以快速、直观地创建逼真的数字人类角色。而MetaHumanAnimator则可以复制面部表演并实现高保真动画，无需高配置的硬件。用户可以在虚幻引擎中使用MetaHuman，并利用先进的角色技术进行创作。
站长网2023-08-09 20:02:57
0003
站长资讯
新型多模态表示学习方法FACTORCL
要点:FACTORCL是一种新的多模态表示学习方法，旨在解决对比学习在低共享或高独特信息情境中无法收集任务相关信息的问题。该方法通过因子化任务相关信息为共享和独特信息，并通过最大化互信息下界获取任务相关信息，最小化互信息上界提取任务不相关信息，实现了对任务相关信息的优化学习。FACTORCL采用多模态增强来评估任务相关信息，使得在自监督情景中实现了任务相关性的建立，无需显式标记。
站长网2023-11-21 15:51:23
0000
站长资讯
谷歌AI搜索惨败，竟教唆网友自杀！
【新智元导读】隔壁OpenAI都杀疯了，谷歌还在收集badcase?搜索引擎AIOverview上线之后，没想到谷歌AI的邪恶程度远超想象:教唆网友自杀/谋杀、吃毒蘑菇，甚至无法识别混淆信息，犯常识错误......这几天，谷歌AI搜索给出的奇葩结果，可是被网友吵翻了天。究竟有多离谱?有人就问了这么一个问题，「如何不让芝士从披萨上滑落」?
站长网2024-05-27 19:38:12
0000
站长资讯
首批搭载天玑9300 ！iQOO Neo9S Pro官宣：5月20日见
快科技5月15日消息，iQOO手机今日宣布，iQOONeo9SPro将于5月20日19:30发布，首批搭载天玑9300旗舰芯，并将提供全新星曜白配色，还有iQOOxNBA联名礼盒同步上市。据悉，天玑9300处理器相较于前代，X4超大核心主频提升至3.4GHz，预计单核性能提升5%。
站长网2024-05-15 11:59:15
0000