研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”
随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始使用AI生成的内容进行训练,会发生什么?
来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇相关论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”
研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”

“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”该论文的主要作者之一 Ilia Shumailov解释道。
换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。
“模型崩溃”是如何发生的
本质上,当 AI 模型生成的数据最终污染了后续模型的训练集时,就会发生模型崩溃。
Shumailov 通过一个假设场景说明了这个问题,其中机器学习模型在包含100只猫的图片的数据集上进行训练——其中10只猫的皮毛是蓝色的,90只猫的皮毛是黄色的。该模型了解到黄猫更普遍,被要求生成新数据时返回一些绿猫结果。随着时间的推移,蓝色毛皮的原始特征会在连续的训练周期中逐渐消失,从蓝色变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失就是模型崩溃。为防止这种情况,重要的是要确保少数群体在数据集中的公平代表性,无论是在数量上还是在对独特特征的准确描述方面。
AI 生成数据的这种“污染”导致模型对现实产生了扭曲的感知。即使研究人员训练模型不要产生过多的重复响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应以避免过于频繁地重复数据。
“还有许多其他方面会导致更严重的影响,例如基于性别、种族或其他敏感属性的歧视,”Shumailov 说,特别是如果生成式人工智能随着时间的推移学会在其反应中产生一个种族,而“忘记”他人存在。
重要的是要注意,这种现象不同于“灾难性遗忘”,模型会丢失以前学到的信息。相比之下,模型崩溃涉及模型根据他们强化的信念误解现实。
这篇论文背后的研究人员发现,即使10% 的原始人类创作数据被用来训练后代的模型,“模型崩溃仍然会发生,只是不会那么快”Shumailov说道。
幸运的是,即使使用现有的转换器和 LLM,也有一些方法可以避免模型崩溃。
研究人员强调了两种具体方式。第一个是保留原始的完全或名义上由人工生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始用它完全刷新。
避免响应质量下降并减少 AI 模型中不需要的错误或重复的第二种方法是将新的、干净的、人类生成的数据集重新引入到他们的训练中。
然而,正如研究人员指出的那样,这需要内容制作者或人工智能公司采用某种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表,”Shumailov 说道。
这些发现对人工智能领域具有重要意义,强调需要改进方法以随着时间的推移保持生成模型的完整性。他们强调了未经检查的生成过程的风险,并可能指导未来的研究制定策略来防止或管理模型崩溃。
很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成 AI 继续改进。
ChatGPT 不愿多写一行代码、偷懒变笨,网友:承诺给它“小费”试试
ChatGPT发布一年以来,有人用它造了一家软件开发公司,7分钟开发一个游戏,成本1美元都不到;也有人用它救死扶伤,成功诊断出人类的病情;还有人雇佣它当员工,帮助第三方「在几秒内构建AI驱动的聊天机器人」,实现每个月的经常性收入(MRR)为64,000美元(约45.2万元)......0000兵马俑跳《科目三》,是我万万没想到的
家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了!热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。这到底是怎么一回事?原来,是有人借助了阿里之前走红的AI技术——AnimateAnyone,生成出来了这个舞蹈片段。0000ChatGPT突然「断网」!OpenAI:别想白嫖付费内容
【新智元导读】ChatGPT联网功能被下架,可能原因是OpenAI要保护内容生产者的权益。ChatGPT突然被断网了!?曾几何时,「联网」功能消除了ChatGPT与现实世界的「时差」,让它能浏览网上的实时内容来生成回答。上线之初,网友们奔走相告,好评如潮。怎么刚刚上线没多久,突然被OpenAI给下架了?站长网2023-07-05 18:20:190000谷歌人工智能鉴定美国登月照片系合成造假 俄罗斯表示有趣
快科技11月25日消息,据国外媒体报道称,谷歌人工智能鉴定美国登月照片系合成造假,这引起了网友围观。在莫斯科举行的人工智能世界之旅”国际会展上,美国谷歌公司的人工智能对一张美国登月的任务照片进行数据分析,用红色标注出该人工智能认为可能造假的部分。最后这张照片几乎每个部分都被标注上鲜艳的红色,这表示美国谷歌的人工智能分析认为:这张美国登月的任务照片是造假合成的。0000斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家
现有大语言模型的训练和推理速度,还能再快一点——快多少?2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源,所有Transformer架构的模型都可使用它来加速。一代方法去年6月发布,无需任何近似即可加速注意力并减少内存占用。站长网2023-07-18 19:02:100001