鸭嘴兽-70B登顶HuggingFace开源大模型排行榜
要点:
鸭嘴兽-70B使用优化过的数据集Open-Platypus训练,删除相似和重复问题。
应用LoRA和PEFT对模型进行微调,重点优化非注意力模块。
检查并解决测试数据泄漏和训练数据污染问题。
最近,来自波士顿大学的鸭嘴兽-70B模型登顶了HuggingFace的开源大模型排行榜,成为目前全球开源领域中表现最强的语言模型。鸭嘴兽的变强有以下三个关键原因:
首先,鸭嘴兽使用了一个经过优化的开源数据集Open-Platypus进行训练。该数据集由11个开源数据集组合而成,主要包含人工设计的问题,只有约10%的问题是由语言模型生成。同时,研究人员对数据集进行了处理,删除了相似和重复的问题,最大限度地减少了数据冗余。这有助于模型在更小的数据集上获取更强大的能力。
其次,研究人员使用了低秩逼近(LoRA)和参数高效微调(PEFT)对鸭嘴兽模型进行了微调。与完全微调不同,LoRA只训练转换层中的可训练参数,从而大大降低了计算训练成本。PEFT则主要微调了非注意力模块,如门控单元和上下采样模块,这进一步提升了模型性能。相比仅优化注意力模块,这种方法取得了更好的效果。
论文地址:https://arxiv.org/pdf/2308.07317.pdf
最后,研究人员深入探索了开放式语言模型训练中存在的数据污染问题,并针对鸭嘴兽的数据集进行了严格过滤。他们开发了一套启发式方法,仔细检查训练集中与测试集相似的问题,删除或以任何方式将其标记为潜在的测试数据泄露,避免了测试数据非故意地进入训练集,保证了模型评估的公平性。
通过数据集优化、模型微调技巧以及数据质量控制,鸭嘴兽-70B得以在众多开源大模型中脱颖而出,登上榜首。这为语言模型的训练提供了宝贵经验,也使开源社区对自主研发强大AI模型更具信心。如果社会各界能坚持开放创新、合作共赢的理念,我们离强人工智能的到来就不会太远了。
董明珠回应员工跳槽要支付培训费:仅针对长期培养的员工
近日,国内媒体纷纷报道了格力电器董事长董明珠对员工跳槽行为收取培训费的看法。在接受采访时,董明珠明确指出,这一费用并非适用于所有跳槽的员工,而是特指那些在格力工作了10年以上的资深员工。站长网2024-03-04 19:33:590000三星 Exynos 2400 芯片亮相:CPU 速度提升 70% AI 处理速度快了 14.7 倍
站长之家(ChinaZ.com)10月7日消息:三星在日前的SystemLSITechDay2023活动中发布了多项新的半导体技术和芯片,其中最重要的是Exynos2400。这是三星的下一代旗舰智能手机处理器,继承自2022年推出的Exynos2200,首次亮相于GalaxyS22。站长网2023-10-07 17:22:580000德国将对OpenAI的ChatGPT数据使用情况展开调查
继意大利,德国数据保护机构现在也正在加强对ChatGPT的监管,德国联邦州数据保护专员们同启动了相应的行政程序。德国AI工作组负责人迪特·库格尔曼表示,“如果使用个人数据,包括作为AI的训练数据,必须有法律依据,我们必须知道数据来自何处。”站长网2023-04-21 11:55:540000网友用AnimateDiff插件成动画短片 春夏秋冬场景切换自如
日前,社交平台用户“MachineDelusions”分享了一段令人惊叹的视频,通过使用AnimateDiff视频生成器,她在同一画面中切换了四个季节的景象。这段视频由静态图像与运动力学结合的运动建模模块生成,引起了网友们的广泛关注。站长网2023-10-10 15:37:580000李斌称先看小米汽车价格再给新车定价:有后发优势
3月14日晚,蔚来汽车CEO李斌通过个人账号开启了首次直播,与网友进行了深入的互动交流。整场直播历时两个半小时,吸引了超过500万人的在线观看,人气旺盛。在直播过程中,有网友对蔚来汽车即将推出的第二品牌“乐道”的定价策略产生了浓厚的兴趣,并就此向李斌提问。对此,李斌表示,他将会参考小米汽车的定价来制定乐道品牌的定价策略,相信后发者会拥有更多的优势。站长网2024-03-15 14:24:180000