研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”
随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始使用AI生成的内容进行训练,会发生什么?
来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇相关论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”
研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”
“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”该论文的主要作者之一 Ilia Shumailov解释道。
换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。
“模型崩溃”是如何发生的
本质上,当 AI 模型生成的数据最终污染了后续模型的训练集时,就会发生模型崩溃。
Shumailov 通过一个假设场景说明了这个问题,其中机器学习模型在包含100只猫的图片的数据集上进行训练——其中10只猫的皮毛是蓝色的,90只猫的皮毛是黄色的。该模型了解到黄猫更普遍,被要求生成新数据时返回一些绿猫结果。随着时间的推移,蓝色毛皮的原始特征会在连续的训练周期中逐渐消失,从蓝色变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失就是模型崩溃。为防止这种情况,重要的是要确保少数群体在数据集中的公平代表性,无论是在数量上还是在对独特特征的准确描述方面。
AI 生成数据的这种“污染”导致模型对现实产生了扭曲的感知。即使研究人员训练模型不要产生过多的重复响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应以避免过于频繁地重复数据。
“还有许多其他方面会导致更严重的影响,例如基于性别、种族或其他敏感属性的歧视,”Shumailov 说,特别是如果生成式人工智能随着时间的推移学会在其反应中产生一个种族,而“忘记”他人存在。
重要的是要注意,这种现象不同于“灾难性遗忘”,模型会丢失以前学到的信息。相比之下,模型崩溃涉及模型根据他们强化的信念误解现实。
这篇论文背后的研究人员发现,即使10% 的原始人类创作数据被用来训练后代的模型,“模型崩溃仍然会发生,只是不会那么快”Shumailov说道。
幸运的是,即使使用现有的转换器和 LLM,也有一些方法可以避免模型崩溃。
研究人员强调了两种具体方式。第一个是保留原始的完全或名义上由人工生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始用它完全刷新。
避免响应质量下降并减少 AI 模型中不需要的错误或重复的第二种方法是将新的、干净的、人类生成的数据集重新引入到他们的训练中。
然而,正如研究人员指出的那样,这需要内容制作者或人工智能公司采用某种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表,”Shumailov 说道。
这些发现对人工智能领域具有重要意义,强调需要改进方法以随着时间的推移保持生成模型的完整性。他们强调了未经检查的生成过程的风险,并可能指导未来的研究制定策略来防止或管理模型崩溃。
很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成 AI 继续改进。
郭明錤预计小米汽车售价低于30万元 将在2024年发售
今天,天风国际分析师郭明錤在X平台上发布了一篇新文章,介绍了小米首款汽车的价格和主要卖点。郭明錤认为,小米预计将在2024年推出其首款汽车,价格预计低于30万元。若售价接近甚至低于25万元,则出货量应该会更高。小米汽车的主要卖点包括自动驾驶、软件生态、800V快充和动力配置。站长网2023-10-13 16:22:540000CardanoGPT 宣布 Girolamo AI 聊天机器人 Beta 版发布,将 AI 融入区块链技术
据一份新闻稿称,CardanoGPT宣布了其AI驱动聊天机器人Girolamo的Beta版发布,这标志着该公司将人工智能(AI)与区块链技术结合的重要一步。Girolamo得名于意大利著名数学家GirolamoCardano,这一发展象征着Cardano在区块链领域探索人工智能的新阶段。站长网2023-11-27 10:44:080000图片生成精准动态视频,阿里、港大推出新模型LivePhoto
阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。与传统方法不同的是,LivePhoto在开源文生图模型StableDiffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。0003爆料称苹果正开发iPad Air 6 加入升级M2自研芯片
当前的iPadAir是在2022年发布的,它搭载了苹果的M1芯片,使它成为一款强大的平板电脑,几乎可以应对任何挑战,但据说它的后续型号将在各方面都更好。根据最新的报道,苹果正在准备一款更新的版本,它将拥有更新的规格,而且在很大程度上,几乎所有人都知道今年的主要升级将是什么。站长网2023-07-17 23:38:080000微软重塑其人工智能愿景:Bing Chat 更名为 Copilot 以更好地与 ChatGPT 竞争
继今年早些时候将ChatGPT类界面直接整合入其搜索引擎后,微软现在已将BingChat品牌更名为Copilot,此举是对其AI聊天界面的重大更新,这一界面曾在Bing、MicrosoftEdge和Windows11中使用。站长网2023-11-16 09:39:350000