LLM360: 首个完全开源和透明的大语言模型
**划重点:**
1. 🌐 开源LLMs(如LLaMA、Falcon和Mistral)选择性公开了组件,而LLM360计划通过完全开源训练过程,支持AI研究的透明性和可重复性。
2. 🚀 LLM360发布两个7B参数的LLMs,AMBER和CRYSTALCODER,附带训练代码、数据、中间检查点和分析,旨在推动开源LLMs的全面透明。
3. 📈 研究在四个数据集上展示了AMBER模型在预训练期间的性能,强调对LLMs进行全方位开源,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。
在众多开源的大型语言模型(LLMs)中,如LLaMA、Falcon和Mistral等,大多数仅公开了特定组件,如最终模型权重或推理脚本。技术文档通常集中在更广泛的设计方面和基本指标上,限制了该领域的进展,因为训练方法的清晰度不足,导致团队不断努力揭示训练过程的众多方面。
为支持开放和协作的AI研究,来自Petuum、MBZUAI、USC、CMU、UIUC和UCSD的研究人员推出了LLM360。这一倡议旨在通过使端到端LLM训练过程对每个人都透明且可重现,全面开源LLMs。LLM360的目标是让所有训练代码和数据、模型检查点以及中间结果都能为社区所用。
与LLM360最接近的项目是Pythia,也旨在实现LLMs的完全可重复性。EleutherAI模型,如GPT-J和GPT-NeoX,已发布了训练代码、数据集和中间模型检查点,展示了开源训练代码的价值。INCITE、MPT和OpenLLaMA发布了训练代码和训练数据集,RedPajama也发布了中间模型检查点。
LLM360发布了两个7B参数的LLMs,分别是AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间检查点和分析。研究回顾了预训练数据集的详细信息,包括数据预处理、格式、数据混合比例以及LLM模型的架构细节。
研究提到了在先前工作中引入的记忆得分,并发布了研究人员易于找到其对应物的度量、数据块和检查点。该研究还强调了消除LLMs预先训练的数据的重要性,以及有关数据过滤、处理和训练顺序的详细信息,以评估LLMs的风险。
研究在四个数据集(ARC、HellaSwag、MMLU和TruthfulQA)上展示了模型在预训练期间的性能。HellaSwag和ARC的评估分数在预训练期间单调增加,而TruthfulQA的分数下降。MMLU的分数最初下降,然后开始增长。相对于ARC,AMBER的性能在诸如MMLU之类的分数上相对竞争,但在ARC方面稍逊色。微调的AMBER模型在性能上表现强于其他类似模型。
LLM360是一个推动开源LLMs全面透明的倡议。该研究发布了两个7B LLMs,AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间模型检查点和分析。该研究强调了从各个角度开源LLMs的重要性,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。阅读论文以获取更多信息,对这项研究的所有贡献归功于该项目的研究人员。如果您喜欢他们的工作,不要忘记加入ML SubReddit、Facebook社群、Discord频道和电子邮件通讯,以获取最新的AI研究新闻和有趣的AI项目。
论文网址:https://arxiv.org/abs/2312.06550
项目网址:https://t.co/ZcLPtYQhdQ
Plai Labs推文本到视频生成器PlaiDay 自拍照+文字即可生成个性化视频
要点:1.PlaiLabs推出了名为PlaiDay的文本到视频生成工具,允许用户通过上传自拍照片并输入一些文字来个性化生成短视频。2.PlaiLabs的AI平台Orchestra旨在为消费者提供协作和连接的AI工具,可以帮助设计师和产品经理创建AI功能。3.该AI平台不仅限于生成艺术,还可以应用于营销活动、安全监控、分析等各种领域。站长网2023-11-08 10:59:260000OpenAI首届开发者大会被人提前「掀底牌」,全新ChatGPT原型Gizmo大曝光
今年9月,OpenAI官宣了其首届开发者大会「OpenAIDevDay」。届时OpenAI团队成员将与全球各地的开发者汇聚一堂,预览全新的AI工具。当时OpenAI首席执行官SamAltman表示,此次开发者大会不会发布GPT-5或GPT-4.5或类似大模型。即使如此,会上发布的AI工具仍然勾起了人们的广泛期待。站长网2023-11-06 09:03:060000vivo与蔡司签署全新联合研发扩展协议 开发更出色影像
站长之家(ChinaZ.com)5月9日消息:vivo宣布与全球光学巨头蔡司再度携手,共同签署了一份全新的联合研发扩展协议,旨在深化双方在移动光学领域的合作,共同探索影像技术的创新与突破。站长网2024-05-09 16:45:180000一上线就爆火出圈!中文语音AI天花板ChatTTS官网上线
还记得之前给大家推荐的中文语音AI天花板ChatTTS吗?这个可平替GPT-4o的文本转语音项目一上线就爆火出圈,短短几天就在GitHub上斩获了16.9K的Star量。而现在,ChatTTS正式上线了官网,所有用户都可以直接在线体验了。主要功能:文字转语音:在文本框中输入文字,ChatTTS会生成对应的语音,并自动调整韵律和停顿。站长网2024-06-03 15:36:120002字节跳动Pico业务大幅收缩 只保留硬件研发
近日,字节跳动旗下VR业务Pico传出裁员消息。7日字节跳动旗下业务Pico召开了全员会,宣布团队进行较大幅度的人员调整。据知情人士透露,Pico在全员大会上宣布,将对市场、游戏、视频、直播等多个团队进行大规模裁员。仅保留核心的硬件研发团队。预计裁员比例将高达80%,从之前的2000人缩减至仅剩几百人。站长网2023-11-07 21:40:270000