苹果研究团队揭示WRAP技术:用合成数据进行预训练大模型 成本低准确性高
**划重点:**
1. 🔄 **预训练效率提升:** WRAP应用于嘈杂的C4数据集,预训练速度提高了近三倍,显著降低了LLM训练的高昂成本和时间投入。
2. 🚀 **模型性能提升:** WRAP在相同计算预算下使模型性能更出色,通过使用Pile的不同子集,减少了超过10%的歧义,并在13种不同活动的零-shot问题回答准确性上提高了超过2%。
3. 📝 **重新构造网络文档:** WRAP使用中等规模的LLM对网络文档进行改写,以多种风格呈现。
近几个月来,大型语言模型(LLMs)在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。
然而,LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构,表达不清晰。按照现有的扩展原则,即随着模型规模的增加,计算能力和数据量也应该成比例增加,这带来了挑战。
困扰研究人员的主要问题有两个。首先,预训练涉及显着的计算成本和时间。其次,互联网上高质量数据的稀缺性问题迫在眉睫。在最新的研究中,来自苹果和卡内基梅隆大学的研究团队通过引入Web Rephrase Augmented Pre-training(WRAP)的概念,解决了这些问题。
WRAP是一种创新方法,利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格,包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。
图源备注:图片由AI生成,图片授权服务商Midjourney
WRAP的主要特点包括:
- **预训练效率:** 将WRAP应用于嘈杂的C4数据集,显著加快了预训练速度,约为三倍。这种效果对于减少与LLM训练通常相关的高昂费用和时间投入至关重要。
- **模型性能提升:** WRAP在相同的计算预算下使模型性能更出色。使用Pile的不同子集减少了超过10%的歧义,提高了13种不同活动的零-shot问题回答准确性超过2%。
- **网络文档改写:** WRAP使用中等规模的LLM对网络文档进行改写,呈现多种风格。这种方法不同于创建新数据,而是通过改进已有内容,保持原始信息的质量和多样性。
WRAP生成的合成数据有两个主要好处。首先,它包含反映应用中使用的语言多样性的各种风格。有了这种多样性,LLM更好地为更广泛的实际事件做好准备。其次,WRAP改写的合成数据比原始网络抓取的数据质量更高。这种质量的提升源于语言更有序、更连贯,从而促进更有效的模型学习。
WRAP是LLM预训练领域的一项重大进展。通过使用高质量、不同风格的合成数据,WRAP不仅加速了训练过程,还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性,这种方法提供了一种可能的前进方式。
论文网址:https://arxiv.org/abs/2401.16380
一天流水5万元,泉州头饰火爆全网
簪花围,称得上是这个春节最IN(时尚)的潮流单品。这一用花环打造成的头饰俨然成为汉服圈的新晋配饰。在各大古镇,随处可见身着汉服头顶簪花围的女孩,她们浓墨艳丽,成为点亮古镇的一撇。0000Meta发布Llama 2-Long模型 处理长文本计算量需求减少40%
要点:1.Meta发布Llama2-Long模型,能在处理长文本时不增加计算需求,仍保持卓越性能。2.模型的性能提升得益于持续预训练、位置编码改进和数据混合,而非依赖更多长文本数据。3.在短和长任务上,Llama2-Long都表现出色,超越其他长上下文模型,具有潜力革新自然语言处理领域。站长网2023-10-11 18:32:040000小米2023年第三财报出炉:营收709亿元 调整后净利润同比增长183%
今日小米发布了2023年Q3财报。财报显示,第三季度,小米集团收入同比增加0.6%至709亿元,经调整净利润增加182.9%至60亿元,集团毛利率创下历史新高,达22.7%。现金储备1276亿元,再创历史新高。小米2023年第三季度,智能手机业务收入为416亿元。全球智能手机出货量为4180万台,同比增长4.0%,环比增长27.0%。站长网2023-11-20 20:51:560001小红书带货二姐|GMV500万+的背后是什么
你敢信吗,从3月31日到5月22日,短短2个月时间不到,小红书已经培育了2位直播大佬,董洁和章小蕙分别登场小红书直播带货,吸引了大批用户的疯狂购买,同时也带动了小众品牌以及高单价产品在小红书销量增长。章小蕙的直播首秀让平台带货热度达到了6亿,冲向销量榜一,而董洁则在连续8小时的高强度直播中傲视榜单,两位女性分别交出了令人瞩目的带货成绩,为小红书直播电商创造了迄今为止最好的成绩。—1—站长网2023-05-29 13:51:140000PromptTools :开源自托管的 LLM 实验 UI 工具
近日,外国博主r/aipromptprogramming在reddit上发布了一则介绍PromptTools的视频。在视频中,该博主展示了工具的界面和操作流程,并强调了该工具的开源性和自托管特点。开发团队希望用户能够下载并使用该工具,并积极参与其后续的改进。站长网2023-08-01 11:51:180001