苹果研究团队揭示WRAP技术:用合成数据进行预训练大模型 成本低准确性高
**划重点:**
1. 🔄 **预训练效率提升:** WRAP应用于嘈杂的C4数据集,预训练速度提高了近三倍,显著降低了LLM训练的高昂成本和时间投入。
2. 🚀 **模型性能提升:** WRAP在相同计算预算下使模型性能更出色,通过使用Pile的不同子集,减少了超过10%的歧义,并在13种不同活动的零-shot问题回答准确性上提高了超过2%。
3. 📝 **重新构造网络文档:** WRAP使用中等规模的LLM对网络文档进行改写,以多种风格呈现。
近几个月来,大型语言模型(LLMs)在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。
然而,LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构,表达不清晰。按照现有的扩展原则,即随着模型规模的增加,计算能力和数据量也应该成比例增加,这带来了挑战。
困扰研究人员的主要问题有两个。首先,预训练涉及显着的计算成本和时间。其次,互联网上高质量数据的稀缺性问题迫在眉睫。在最新的研究中,来自苹果和卡内基梅隆大学的研究团队通过引入Web Rephrase Augmented Pre-training(WRAP)的概念,解决了这些问题。
WRAP是一种创新方法,利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格,包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。
图源备注:图片由AI生成,图片授权服务商Midjourney
WRAP的主要特点包括:
- **预训练效率:** 将WRAP应用于嘈杂的C4数据集,显著加快了预训练速度,约为三倍。这种效果对于减少与LLM训练通常相关的高昂费用和时间投入至关重要。
- **模型性能提升:** WRAP在相同的计算预算下使模型性能更出色。使用Pile的不同子集减少了超过10%的歧义,提高了13种不同活动的零-shot问题回答准确性超过2%。
- **网络文档改写:** WRAP使用中等规模的LLM对网络文档进行改写,呈现多种风格。这种方法不同于创建新数据,而是通过改进已有内容,保持原始信息的质量和多样性。
WRAP生成的合成数据有两个主要好处。首先,它包含反映应用中使用的语言多样性的各种风格。有了这种多样性,LLM更好地为更广泛的实际事件做好准备。其次,WRAP改写的合成数据比原始网络抓取的数据质量更高。这种质量的提升源于语言更有序、更连贯,从而促进更有效的模型学习。
WRAP是LLM预训练领域的一项重大进展。通过使用高质量、不同风格的合成数据,WRAP不仅加速了训练过程,还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性,这种方法提供了一种可能的前进方式。
论文网址:https://arxiv.org/abs/2401.16380
百川VS智谱,谁是中国的OpenAI?
6月初,外媒曾发出了“谁是中国的OpenAI”的拷问,经历了大模型创业潮之后,大浪淘沙,最终留下的不过寥寥数人。清华大学几个十字路口外的赛尔大厦,是明星创业者王小川的百川智能,搜狐网络大厦是学院派出身的智谱AI。二者在经历了市场的检验后,成为了最有希望的两个候选人。两栋楼的争夺战,似乎已经悄然打响了。从融资上看,智谱AI和百川智能都在今年,完成了多轮大额融资。站长网2023-10-24 21:27:250000微软、亚马逊、IBM 承诺公布 AI 模型的安全措施
划重点:-📝几家领先的科技公司承诺在AI安全峰会上公布他们开发基础模型时所采取的安全措施。-📝这些公司同意如果无法控制或减轻AI模型所带来的风险,则不开发或部署该模型。-📝承诺适用于基础或“前沿”模型,即可以应用于广泛应用领域的AI模型。站长网2024-05-29 18:51:450000谷歌将其人工智能驱动搜索生成体验(SGE)扩展到 120 多个国家和地区
在周三的博客文章中,Google宣布将其由生成式人工智能驱动的搜索平台——搜索生成体验(SGE)扩展至超过100个国家和地区,并新增了对四种新语言的支持。此举体现了该公司迅速部署生成式AI搜索技术,并从微软的必应搜索和OpenAI的ChatGPT那里夺回市场认知份额的决心。站长网2023-11-09 09:15:310000新型多模态模型Adept Fuyu-Heavy 专为数字代理设计
AdeptFuyu-Heavy是一种新型的多模态模型,专为数字代理设计。据称,它是世界上第三大能力超强的多模态模型,仅次于GPT4-V和GeminiUltra。这种模型特别擅长理解用户界面,能够解释和操作各种软件和应用程序的界面,并且可以帮助用户执行自动化流程、响应查询以及提供信息等任务。站长网2024-01-30 11:52:330000新加坡国立大学发布Goat 算数能力超过GPT-4
尽管大规模语言模型在各种自然语言处理任务中展现出卓越的性能,但算术类问题仍然是一个难题,即使是目前最强大的GPT-4也很难解决基本的运算问题。最近,来自新加坡国立大学的研究人员提出了一个专门用于算术问题的模型,名为Goat。在对LLaMA模型进行微调后,Goat在算术上实现了比GPT-4更出色的性能。站长网2023-06-07 19:12:160000