谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻
最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。
研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。
论文地址:https://arxiv.org/pdf/2311.01964.pdf
在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。
研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。
为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。
该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。
这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。
亚马逊云科技推出生成式AI新工具
近日,亚马逊云科技发布了AmazonBedrock和AmazonTitan模型,并宣布AmazonCodeWhisperer已正式推出。AmazonBedrock使用户能够通过API访问来自AI21Labs、Anthropic、StabilityAI和亚马逊的基础模型,同时,用户可通过亚马逊云科技托管服务,访问从文本到图像的数个基础模型,以及AmazonTitan基础模型。站长网2023-04-14 18:14:520000美图AI视觉大模型MiracleVision奇想智能将向公众开放
1月2日,美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。美图AI视觉大模型MiracleVision(奇想智能)于2023年6月内测,为美图秀秀、美颜相机、Wink、美图设计室、WHEE、美图云修等知名影像与设计产品提供AI模型能力的同时,也帮助美图公司搭建起由底层、中间层和应用层构建的人工智能产品生态。站长网2024-01-02 14:33:560000数字地图公司TomTom与微软合作开发基于人工智能的车载对话助手
划重点:1.🚗TomTom与微软合作,共同开发了一款基于人工智能的车载对话助手。2.🗺️这款助手能够让用户与车辆进行自然对话,并实现与信息娱乐、位置搜索和车辆控制系统的语音交互。3.💡TomTom利用了微软的AzureOpenAI服务和OpenAI的大型语言模型,将该对话助手整合到其他车载信息娱乐系统中,并内置于TomTom的数字驾驶舱平台。0000首批小米汽车SU7开始交付 雷军给小米车主开车门
今日,北京亦庄小米汽车工厂内举办了一场意义非凡的仪式——小米SU7首批车主交付活动。作为小米的创始人和董事长,雷军亲临现场,与首批车主共同见证这一激动人心的时刻,并亲自为他们开车门,送上最诚挚的祝福。站长网2024-04-18 14:54:370000王小川谈王慧文做大模型:没有技术背景做大模型压力会大很多
站长之家(ChinaZ.com)8月8日消息:百川智能今天发布了公司旗下第三款大模型产品——Baichuan-53B。据王小川介绍,Baichuan-53B定位闭源大模型,目前在写作、文本创作能力方面,已经达到行业最好的水平。Baichuan-53B主要面向B端用户提供服务,发布后,该大模型也将启动内测,预计下个月将会开放API等相关组件。站长网2023-08-08 17:07:370000