谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻
最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。
研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。
论文地址:https://arxiv.org/pdf/2311.01964.pdf
在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。
研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。
为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。
该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。
这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。
谷歌推出Android机器人公仔:售价超百元 销量火爆
快科技2月20日消息,据媒体报道,谷歌推出了一款TheBot”安卓机器人公仔,售价为16美元(约合人民币115元)。据悉,这款与DeadZebra团队多年来销售的公仔类似,这款公仔的手臂可以摆动,更符合谷歌去年推出的全新3D安卓吉祥物。目前官方没有透露公仔由谁生产,但其包装盒样式和可摆动的天线升级似乎与DeadZebra以前的产品有些接近。0000字节跳动回应百万美元挖角 OpenAI 团队成员:消息不实
近日,有传闻称字节跳动准备挖角OpenAI团队的成员,并开出140万美元的年薪。不过,4月24日,字节跳动相关负责人回应澎湃新闻称这一消息不实。站长网2023-04-25 09:16:070000长虹推出基于大模型的智慧家电 AI 平台“长虹云帆”
长虹推出了全球首个基于大模型的智慧家电AI平台——长虹云帆。云帆AI平台将生成式人工智能应用于电视终端,通过长虹自主研发的AI技术和大量专业模型的训练,实现了电视的智能化和智能家居的发展进入全新阶段。长虹云帆AI平台的主要特点是简单易用、交互方便、功能强大。它具有多维感知、多重理解、多任务管理、多模交互和内容激发的五大能力,可以满足用户的个性化需求。站长网2023-11-20 17:32:060000微软推EgoGen:创新性3D数据合成模型 可生成丰富多模态数据
划重点:1.🚀EgoGen是微软与苏黎世联邦理工学院合作推出的创新3D数据合成模型,解决第一人称视角训练数据生成的难题。2.🌟该模型采用双阶段强化学习方案,通过高效的自我感知视觉代理和“注意”奖励,优化生成模型,使虚拟人物更自然、逼真地感知环境。站长网2024-02-23 09:17:590000IBM 预测全年营收增长超出预期,受到AI应用潮流推动
划重点:-💼IBM预测全年营收增长超出市场预期,依靠企业对其IT软件和咨询服务的稳定需求,以应对人工智能的应用。-📈公司重点发展软件和咨询服务,并加大对人工智能的投入,通过与各行业的整合,取得了不错的业绩。-💻IBM预计2024年的营收将以中个位数增长,达到4%-6%左右,超过华尔街预期。站长网2024-01-25 09:58:530000