首页站长资讯MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

站长网2023-07-20 18:09:311阅

站长之家（ChinaZ.com）7月20日消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型（LLM），支持8K 的上下文长度。与以前的模型相比，MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

据该公司称，该模型在 MosaicML 平台上进行训练，并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行，另外在256个 H100上进行了三天的训练，包含了令人印象深刻的5000亿个token数据。

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动，MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大，参数只有GPT-3的17%，相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3，并且证明比类似大小的模型训练效率更高。例如，LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍，而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称，与之前发布的所有型号相比，新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化，以获得更快的结果。此外，它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本，强调其在包含1.5万亿token的广泛数据集上的出色训练，超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

MosaicML 声称，通过使用 FlashAttention 和 FasterTransformer，该模型在快速训练和推理方面表现出色，同时受益于llm-foundry 存储库提供的开源训练代码。

该公司发布了三种版本的模型:

MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练，并进一步优化，扩展序列长度为8k。它接受了5000亿个令牌的额外训练，产生了包含文本和代码的1.5万亿个token的大量语料库。

MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计，包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。

MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型，专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称，MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能，该公司的上下文学习评估工具证实了这一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k

MosaicML推开源大语言模型MPT7B 8K 上下文长度达8k

0001

评论列表

共(0)条

相关推荐

站长资讯
苹果 WWDC 2023 时间表公布：iOS 17、macOS 14、AR/VR 头显等即将亮相
苹果今天宣布了其年度开发者大会WWDC的时间表，活动将于6月5日至6月9日举行。时间表确认，苹果的主题演讲将于太平洋时间6月5日上午10点开始，苹果公司有望宣布iOS17.macOS14.watchOS10.备受期待的AR/VR头显、15英寸MacBookAir等产品。
站长网2023-05-24 09:31:10
0003
站长资讯
法拉第未来被纳斯达克除名 FF宣布退市
站长之家（ChinaZ.com）4月30日消息:近日，贾跃亭旗下法拉第未来（FF）公司遭遇纳斯达克交易所的除名通知，起因是该公司未能满足纳斯达克上市的多项规定。
站长网2024-04-30 13:03:06
0000
站长资讯
网易游戏发布元旦假期未成年人游戏限时通知
网易游戏根据国家新闻出版署发布的《关于进一步严格管理切实防止未成年人沉迷网络游戏的通知》以及国务院办公厅公布的《关于2024年部分节假日安排的通知》，制定了元旦假期期间及前后对未成年人游戏时间的限制措施。在以下日期，未成年人可以在20时至21时体验游戏，具体安排如下:2023年12月29日（星期五）2023年12月30日至2024年1月1日（元旦假期）
站长网2023-12-27 17:02:37
0000
站长资讯
国内首个AI保险规划师上线费用节省30%
随着人工智能技术的不断发展，保险业也在经历数字化转型。由于每位保险用户的需求不尽相同，传统的代理人模式难以实现个性化的千人千险。随着AI技术的成熟，保险规划领域开始崭露头角。AI技术提供了更好的方式来为用户提供更加精准的保险配置和咨询服务。
站长网2023-04-13 15:13:47
0000
站长资讯
秘史公开，当年，马斯克离开 OpenAI 的真相
在ChatGPT的影响下，目前OpenAI成为了全球最火爆的AI公司。然而回顾过去，它与马斯克之间的恩怨从创立之初就埋下了。在ElonMusk（埃隆·马斯克）帮忙创立人工智能研究公司OpenAI三年后，他本人却退出了。
站长网2023-05-12 20:26:52
0001