谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻
最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。
研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。

论文地址:https://arxiv.org/pdf/2311.01964.pdf
在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。
研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。
为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。
该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。
这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。
视频号做IP的四种硬核赚钱玩法
“微信是互联网时代的身份证,视频号就是互联网时代的个人名片。”十点读书副总裁廖仕健在此前一次面向见实会员的视频号主题私享会上如是说道。随着微信生态的不断发展,视频号逐渐成为了商家和创作者们关注的焦点。它不仅提供了丰富的创作工具和展示平台,还为商业变现提供了多种途径。在这个过程中,视频号的商业化发展也呈现出一些显著的特点和趋势。在日常观察中,廖仕健就发现知识博主在视频号有4种赚钱硬核玩法。站长网2023-11-03 09:13:480000华为Mate 60系列降价:最高优惠800元
今天凌晨,华为意外地对其Mate60系列智能手机进行了官方降价。根据华为官网的信息,Mate60标准版的原价从5499元降至4999元,降价幅度为500元;Mate60Pro的原价从6499元降至5699元,降价幅度达到800元;而Mate60Pro的原价从8999元降至8199元,同样降价800元。站长网2024-08-15 21:18:090000DeepSeek劝不了谷歌们
过去一个月,DeepSeek以大约十分之一的训练成本,推出与OpenAIo1性能接近的开源模型R1,“小力出奇迹”的新范式震撼全球AI大模型行业。同时,外界对于大型科技公司动辄数百亿美元的AI研发开支,也产生了越来越多的质疑。但被“DeepSeek冲击”吓了一跳的科技巨头,并没有因此改弦更张。相反,他们正挥舞着支票簿,试图靠疯狂砸钱,重新夺取AI大模型的制高点。0000为了看懂奥运会,我用起了“ 外挂 ”。
“中国队奥运女双10米台七连冠”“乒乓球混双‘莎头组合’夺冠”“00后征战奥运的松弛感”“盛李豪光靠干饭就拿下了两枚金牌”。。。自打巴黎奥运会开始以后,热搜就被各种比赛给霸榜了。即使是平时不咋爱运动的人,对奥运会这种全民赛事也是毫无抵抗力,都来凑凑热闹感受一波氛围。站长网2024-08-01 10:57:560000国产具身人形机器人征服复杂场景: 实时感知规划,动态运动告别“盲走”
AttentionPlease!这是一个整装待发的国产人形机器人:先拿比较基础的挑战场景热热身。首先完成的是行走过程中主动调整步态,抬腿从平地迈上台阶:再加大点场景难度,让它完成上楼梯任务,还能看到实时感知画面:或者下15度的斜坡,都能一气呵成:这家伙还从室内走到了户外,从白天走到了傍晚,在不同环境条件下进行测试。动态表现怎么说呢,就挺稳定,夸句“出色”并不为过。0000