「教科书级」数据能有多大作用?微软超强小模型引热议
随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?
当前,大模型一直在由不断增加的「大数据」来推动。「大模型 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。
6月,微软发布了一篇题为《Textbooks Are All You Need》的论文,用规模仅为7B token 的「教科书质量」数据训练了一个1.3B 参数的模型 ——phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级,但 phi-1在 HumanEval 的 pass@1上达到了50.6% 的准确率,在 MBPP 上达到了55.5%。
phi-1证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5technical report》,对高质量「小数据」的潜力做了进一步研究。
论文地址:https://arxiv.org/abs/2309.05463
模型简介
架构
研究团队使用 phi-1的研究方法,并将研究重点放在自然语言常识推理任务上,创建了拥有1.3B 参数的 Transformer 架构语言模型 phi-1.5。phi-1.5的架构与 phi-1完全相同,有24层,32个头,每个头的维度为64,并使用旋转维度为32的旋转嵌入,上下文长度为2048。
此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 tokenizer。
训练数据
phi-1.5的训练数据是由 phi-1的训练数据(7B token)和新创建的「教科书质量」数据(大约20B token)组成的。其中,新创建的「教科书质量」数据旨在让模型掌握常识推理,研究团队精心挑选了20K 个主题来生成新数据。
值得注意的是,为了探讨网络数据(LLM 常用)的重要性,该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。
研究团队表示:创建强大且全面的数据集需要的不仅是原始计算能力,还需要复杂的迭代、有效的主题选择,以及对知识的深入了解,具备这些要素,才能确保数据的质量和多样性。
实验结果
对于语言理解任务,该研究在多个数据集(包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU)上评估了一些模型。评估结果如下表3所示,phi-1.5的性能可以媲美5倍大的模型:
在常识推理基准上的测试结果如下表所示:
在更复杂的推理任务(例如小学数学和基础编码任务)上 phi-1.5还超越了大多数 LLM:
研究团队认为,phi-1.5再次证明了高质量「小数据」的力量。
质疑与讨论
或许是因为「大模型 大数据」的理念太深入人心,这项研究遭到了机器学习社区一些研究人员的质疑,甚至有人怀疑 phi-1.5直接在测试基准数据集上训练了。
网友 Susan Zhang 进行了一系列验证,并指出:「phi-1.5能够对 GSM8K 数据集中的原问题给出完全正确的回答,但只要稍微修改一下格式(例如换行),phi-1.5就不会回答了。」
还有修改问题中的数据,phi-1.5在解答问题的过程中就会出现「幻觉」。例如,在一个点餐问题中,只修改了「披萨的价格」,phi-1.5的解答就出现了错误。
并且,phi-1.5似乎「记住了」最终答案,即使在修改数据的情况下该答案已经是错误的。
对此,论文作者之一 Ronen Eldan 很快给出了回应,针对上述网友测试出现的问题给出解释和反驳:
但该网友再次阐明其观点:测试说明 phi-1.5的回答对 prompt 的格式是非常「脆弱」的,并对作者的回应提出质疑:
论文第一作者 Yuanzhi Li 回应道:「由于没有进行任何指令微调和对齐工作,phi-1.5在稳健性上的确不如 GPT-4。但『脆弱』并不是正确的术语,事实上,对于任何模型,pass@k 准确率都会比 pass@1高得多(所以模型正确就是偶然的)。」
看到这些质疑与讨论,网友们直呼:「最简单的回应方式就是直接公开合成数据集。」
对此,你怎么看?
任正非:我们即将进入第四次工业革命 规模之大不可想象
快科技9月19日消息,近日,ICPC基金会主席及教练和世界计算机竞赛的金牌获得者前往华为考察。在此期间,华为创始人任正非表示,我们即将进入第四次工业革命,波澜壮阔,其规模之大不可想象。在任正非看来,第四次工业革命的基础就是大算力,今天的年青人是未来大算力时代的领袖,我们支持竞赛的目的是要为年青人搭建一个绽放生命火花的舞台。0000在小红书做私域还是蓝海!
近日,见实留意到很多商家在进行小红书域内的「群聊」运营,并取得了不错成绩,如某原创珠宝设计品牌,在小红书群聊内成交GMV占商家整体GMV高达50%!一直以来,小红书用户就以高质量和高互动性著称,这为品牌沉淀用户、提高转化率提供了天然优势,因此很多品牌都非常重视小红书用户。0000李国庆称ChatGPT替代不了阅读 后者可以安慰心灵
据《中国企业家》杂志消息,在4月23日的一次读书活动中,当当网创始人李国庆分享了他的观点。李国庆认为,ChatGPT无法取代阅读的作用。阅读不仅可以让人的内心得到平静,也是一种审美享受,这些都是ChatGPT所无法替代的。此外,在晚上睡不着的时候,阅读文学作品能够安慰心灵。而阅读的另一个重要作用则是帮助人们求道解惑。通过阅读,人们可以以较低的成本获得各种知识,这是最有价值的一种投资。站长网2023-04-23 17:34:210000腾讯混元大模型通过备案 将陆续面向公众开放
今天,腾讯混元大模型首批通过备案,将正式上线,并陆续面向公众开放。据悉,腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。站长网2023-09-15 18:23:270000淘宝上线国货超市 半个月成交额同比增长超5倍
最近,在国货热潮的推动下,淘宝上的上百家国货品牌在短短一周内涨粉超过百万。淘宝紧急上线了“国货超市”,其中包括了日用护肤、美妆、食品、服饰等各个品类的国货品牌。这些国货品牌在过去半个月的成交额同比增长超过5倍,受到了消费者的支持。在淘宝天猫上,国货占到了成交额的75%,年轻人对国货的支持度也不断提高。站长网2023-09-22 14:09:160000