MosaicML发布大型语言模型 MPT-7B 可商用
站长网2023-05-11 12:02:560阅
MosaicML 的 MPT-7B 是一个具有近70亿个参数的大型语言模型,该团队在自己的近万亿个标记的数据集上对其进行了训练。
MosaicML 遵循 Meta 的LLaMA模型的训练方案。培训花费近200,000美元,使用 MosaicML 平台耗时9.5天。
MosaicML表示,MPT-7B 与 Meta 的70亿参数 LLaMA 模型的性能相匹配,使其成为第一个达到该水平的开源模型,领先于OpenLLaMA。与 Meta 的模型不同,MPT-7B 已获得商业使用许可。
除了“MPT-7B Base”模型,MosaicML 还发布了三个变体:MPT-7B-StoryWriter-65k 、MPT-7B-Instruct 和 MPT-7B-Chat。
借助 MPT-7B-StoryWriter-65k ,MosaicML 还发布了一个模型,该模型能够读取和写入上下文长度非常长的故事。为此,使用 books3数据集的子集对 MPT-7B 进行了微调,上下文长度为65,000个标记。OpenAI 最大的 GPT-4变体能够处理32,000个标记。
根据 MosiacML 的说法,该模型可以通过一些优化扩展到超过65,000个token,并且该团队已经在使用 Nvidia A100-80GB GPU 的单个节点上展示了多达84,000个token。但即使有65,000个token,也可以阅读整部小说并写一篇结语。
项目网址:https://github.com/mosaicml/llm-foundry
0000
评论列表
共(0)条相关推荐
SDXL重要更新!Openpose和Scribble模型质量显著提升
SDXL在经过近一年的发展后,终于迎来了一些重要的更新,这些更新显著提升了其功能性和用户体验。图片来自歸藏以下是关于SDXL最近进展的概述:Openpose和Scribble模型的发布:xinsir的贡献:由xinsir发布的Openpose和Scribble模型在质量上取得了显著提升,尤其是Openpose模型。功能限制:需要注意的是,这些新模型专注于姿态识别,并不包括面部识别功能。站长网2024-05-30 21:23:400000BAT地图新战争:大模型、流量与生态重构
大模型犹如烽火,重新点燃了大厂旗下各个业务板块间的竞争热情。从阿里巴巴决策让全部产品融入通义千问大模型,到百度采用文心一言彻底重塑产品线,近期腾讯也披露其内部已有超过180个业务领域与混元大模型紧密结合——这标志着AI改造应用的全面普及。BAT不约而同地掀起自我AI进化的狂潮。随着业务版图再度注入新动能,相同领域的竞争之轮必定再次高速旋转。站长网2023-10-31 17:42:100001东方甄选报警!东方甄选回应白虾添加虾药质疑:送检结果符合标准
2月18日,一起关于东方甄选自营厄瓜多尔南美白虾的争议事件浮出水面。据举报人透露,东方甄选销售了高达695万单的这款虾产品,但涉嫌隐瞒并超量使用了虾药——焦亚硫酸钠,一种防腐剂和漂白剂。而东方甄选的主播董宇辉在直播间曾明确表示,该产品的配料表只有虾、水和盐。站长网2024-02-20 08:45:33000018个月326项能力,这家大厂猛上新生成式AI,如今纯靠Prompt就搞定企业级应用了
构建生成式AI应用,现在只需要几分钟。「生成式AI的半衰期只有六个月,」亚马逊云科技全球AI产品副总裁MattWood说道。2024开启下半年,人们发现,生成式技术和落地之间的距离,已经不能用「远」或「近」完全概括。站长网2024-07-12 09:19:350000骗子克隆一个官网只用半小时:内容可以随便删改
快科技10月20日消息,据央视新闻报道,很多冒充政府部门发布信息的骗局背后都有一个与官方网站仿真度极高的网站或者是APP。报道称,据网络安全人员透露,克隆一个网站平均只需要半个小时左右的时间。克隆一个网站的第一步,就是注册一个相似度高的域名,这个域名跟需要仿造的这个域名有很高的相似度。0000