MosaicML发布大型语言模型 MPT-7B 可商用

站长网2023-05-11 12:02:560阅

MosaicML 的 MPT-7B 是一个具有近70亿个参数的大型语言模型，该团队在自己的近万亿个标记的数据集上对其进行了训练。

MosaicML 遵循 Meta 的LLaMA模型的训练方案。培训花费近200，000美元，使用 MosaicML 平台耗时9.5天。

MosaicML表示，MPT-7B 与 Meta 的70亿参数 LLaMA 模型的性能相匹配，使其成为第一个达到该水平的开源模型，领先于OpenLLaMA。与 Meta 的模型不同，MPT-7B 已获得商业使用许可。

除了“MPT-7B Base”模型，MosaicML 还发布了三个变体:MPT-7B-StoryWriter-65k 、MPT-7B-Instruct 和 MPT-7B-Chat。

借助 MPT-7B-StoryWriter-65k ，MosaicML 还发布了一个模型，该模型能够读取和写入上下文长度非常长的故事。为此，使用 books3数据集的子集对 MPT-7B 进行了微调，上下文长度为65，000个标记。OpenAI 最大的 GPT-4变体能够处理32，000个标记。

根据 MosiacML 的说法，该模型可以通过一些优化扩展到超过65，000个token，并且该团队已经在使用 Nvidia A100-80GB GPU 的单个节点上展示了多达84，000个token。但即使有65，000个token，也可以阅读整部小说并写一篇结语。

项目网址：https://github.com/mosaicml/llm-foundry

MosaicML发布大型语言模型MPT7B 可商用

0000

评论列表

共(0)条

相关推荐

站长资讯
OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」：或被 MoE 彻底重塑导致性能下降
世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周，OpenAI的GPT-4的用户们纷纷抱怨性能下降，有些人将这个模型与以前的推理能力和其他输出进行比较，称其变得「懒散」和「更笨」。
站长网2023-07-14 09:50:37
0000
站长资讯
高合汽车直播卖牛排：收入用于支持一线售后员工
近日，身处舆论风口浪尖的高合汽车，宣布踏入直播带货领域，以此展开自救行动。深陷降薪、停工停产等负面消息的高合汽车，如今选择了直播带货这一新型销售模式，希望能借此走出困境。高合汽车工程项目总监杨悦卿，以全新的身份——主播，亮相在官方直播间。他不再只是解说汽车技术，而是开始为牛排、牛肉卷等食品带货，这一幕让众多网友戏称“宇宙的尽头都是带货”。
站长网2024-03-09 17:01:45
0000
站长资讯
调查显示:超一半新西兰Z世代员工正使用生成式AI工具
文章概要:-调查显示超过一半的新西兰的Z世代雇员正在使用生成式AI工具，但只有1/5了解相关风险。-专家表示企业领导人需要提高AI知识，确保员工了解可接受的使用方式和风险。-更好的治理是使用AI的关键，企业应制定AI政策指导员工正确使用。
站长网2023-10-11 18:17:59
0000
站长资讯
三星正在测试将ChatGPT集成到其移动浏览器中
三星一直在寻找将AI引入其智能手机的方法。此前有报道提到三星如何引起谷歌的恐慌，仅仅是因为它希望从谷歌搜索切换到MicrosoftBing的人工智能功能。后来，三星放弃了这个想法，坚持使用谷歌搜索。据TechNewsSpace报道，三星正在测试将ChatGPT集成到其移动浏览器中。目前，三星互联网浏览器中没有与ChatGPT相关的功能。
站长网2023-07-15 11:18:54
0000
站长资讯
AI日报：ComfyUI0.2.0全新版本发布；混合现实插画模型FLUX.1-dev-LoRA；Playground V3生图模型发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、全新ComfyUI0.2.0版本重磅来袭，为设计师带来工作流程革命
站长网2024-09-05 05:38:36
0000