鸭嘴兽-70B登顶HuggingFace开源大模型排行榜
要点:
鸭嘴兽-70B使用优化过的数据集Open-Platypus训练,删除相似和重复问题。
应用LoRA和PEFT对模型进行微调,重点优化非注意力模块。
检查并解决测试数据泄漏和训练数据污染问题。
最近,来自波士顿大学的鸭嘴兽-70B模型登顶了HuggingFace的开源大模型排行榜,成为目前全球开源领域中表现最强的语言模型。鸭嘴兽的变强有以下三个关键原因:
首先,鸭嘴兽使用了一个经过优化的开源数据集Open-Platypus进行训练。该数据集由11个开源数据集组合而成,主要包含人工设计的问题,只有约10%的问题是由语言模型生成。同时,研究人员对数据集进行了处理,删除了相似和重复的问题,最大限度地减少了数据冗余。这有助于模型在更小的数据集上获取更强大的能力。

其次,研究人员使用了低秩逼近(LoRA)和参数高效微调(PEFT)对鸭嘴兽模型进行了微调。与完全微调不同,LoRA只训练转换层中的可训练参数,从而大大降低了计算训练成本。PEFT则主要微调了非注意力模块,如门控单元和上下采样模块,这进一步提升了模型性能。相比仅优化注意力模块,这种方法取得了更好的效果。

论文地址:https://arxiv.org/pdf/2308.07317.pdf
最后,研究人员深入探索了开放式语言模型训练中存在的数据污染问题,并针对鸭嘴兽的数据集进行了严格过滤。他们开发了一套启发式方法,仔细检查训练集中与测试集相似的问题,删除或以任何方式将其标记为潜在的测试数据泄露,避免了测试数据非故意地进入训练集,保证了模型评估的公平性。
通过数据集优化、模型微调技巧以及数据质量控制,鸭嘴兽-70B得以在众多开源大模型中脱颖而出,登上榜首。这为语言模型的训练提供了宝贵经验,也使开源社区对自主研发强大AI模型更具信心。如果社会各界能坚持开放创新、合作共赢的理念,我们离强人工智能的到来就不会太远了。
官宣!小米人车家全生态将亮相2024 MWC
快科技2月14日消息,近日,小米官方在海外社交平台官宣,小米人车家全生态”将亮相于2024年西班牙巴塞罗那世界移动通讯展览会(MWC)。据悉,MWC是世界移动通信大会,由移动通信亚洲大会发起,全球移动通信系统协会主办。2024年MWC展会时间是2月26日-2月29日。据官方发布海报,今年MWC展会不仅有小米SU7、小米手机、还有智能家居。站长网2024-02-14 12:51:380000斗鱼发布 2024 年 Q1 财报:营收达 10.4 亿元
斗鱼今日公布了其2024年第一季度的未经审计财务报告,据财报数据显示,斗鱼在2024年第一季度实现了10.4亿元人民币的总营收,同比下降29.9%。其中广告及其他业务的收入为2.39亿元,这一数字占到了总营收的23%,显示出广告业务对斗鱼整体营收的重要贡献,并且这一比例还有所上升。然而,尽管营收表现稳定,斗鱼在本季度仍然录得了8800万元的净亏损,经过调整后的净亏损为8570万元。站长网2024-06-06 00:03:170000名创买永辉,这笔惊人交易到底是怎么促成的
9月23日晚,名创优品在港交所发布公告,以63亿元从牛奶公司、京东世贸、宿迁涵邦(京东的一致行动人)手中收购永辉超市29.4%的股权,成为永辉第一大股东。该笔交易将以现金支付,计划于2025年上半年完成,同时名创优品入股不控股。当晚,名创召开电话会议,CEO叶国富和CFO张靖京解释了此次交易的一些核心考虑。简单来说有几个点:0000罗永浩淘宝直播间招AI科学家岗位备受欢迎 中签率千分之一
近日,罗永浩淘宝直播间上架了一项特殊商品,即AI算法科学家职位。网友们可以直接在直播间中上传他们的简历申请该职位。据了解,该职位所在地为北京,所属于细红线公司,该公司成立于2022年,是罗永浩的另一家创业公司,主要致力于AR技术领域的发展。相关负责人透露,薪酬待遇较为优厚,具体面议。站长网2023-07-16 10:43:510000阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
要点:阿里提出了EMO框架,可根据单张图像和声音生成具有表情丰富的头像视频。方法包括两个主要阶段:帧编码和扩散过程,利用多种注意机制和时间模块实现头像生成。EMO支持多语言歌曲和不同风格的头像生成,可应用于歌唱、对话和跨角色表演等领域。站长网2024-02-28 14:24:460000