互联网时代下 AI 与人类创造力的角逐:当 AI 向 AI 生成数据学习时「模型崩溃」将引发混乱
在大型语言模型(LLM)越来越多地依赖于 ChatGPT 和其他工具来提高效率的情况下,我们可以预见到未来很大一部分网络内容将由人工智能生成。然而,这可能对大型语言模型的未来构成严重风险,因为目前它们依赖于从网络上抓取的人类生成数据。
剑桥大学、牛津大学、多伦多大学和伦敦帝国理工学院的一组研究人员发表了一篇研究论文,对 LLMs 最终使用人工智能生成数据作为训练数据提出了警告。这篇名为《递归的诅咒:在生成数据上训练会让模型遗忘》的论文描述了一种退化过程,称为「模型崩溃」,在这种过程中,模型与现实脱节,并被自己的输出内容所破坏。
随着人工智能工具的广泛使用,这种情况很可能会发生。广泛使用人工智能将导致人工智能生成的内容被作为大型语言模型的训练数据,从而导致其输出的不准确和失真。
这个问题在大型语言模型、变分自编码器和高斯混合模型中都有观察到,随着时间的推移,它们开始「遗忘真实的基础数据分布」,因为它们所训练的数据变得污染程度很高,不再与真实世界的数据相似。
鉴于模型崩溃的严重风险,研究人员强调了获得原始分布数据的重要性,这些数据通常由人类生成。毕竟,人工智能语言模型旨在与人类进行交互,因此需要与现实保持联系,以正确模拟我们的世界。
为解决这个问题,研究人员提出了几种更智能的大型语言模型训练方法。其中一种方法是「先发优势」,强调保留对原始人工生成数据源的访问权限。
然而,由于很难区分 AI 生成的数据和人类生成的数据,该研究论文明确提出,「社区范围的协调」对于确定数据来源至关重要,以确保涉及 LLM 创建和部署的各方共享所需的信息。
论文补充说,但在人们越来越广泛地使用生成式人工智能和对技术占据岗位的担忧之间,对于人类创作者来说也存在一线希望。
研究论文推测,随着互联网上生成式人工智能数据的增加,人类创造的内容将变得越来越有价值,即使只是作为训练大型语言模型时的无污染数据来源。
国内游“挤爆了”,这份五一假期避坑指南值得看
结束六天工作,打工人终于等来2023年首个长假——五一。去淄博吃烧烤、往武汉吃过早、飞长沙夜生活、到成都看大熊猫……半个月前还计划离开浪浪山,幻想去远方吃吃看看,来一场特种兵式旅行的人们,最近却发现自己可能高兴早了。来自携程和飞猪的数据均显示,距离“五一”假期不到10天,两平台国内机票、酒店、景区门票、跟团游等均已超过2019年同期,热度急速蹿升。站长网2023-05-12 20:38:150001小米手机推出龙年春节限定水印 支持小米14、K70等机型
随着农历新年的临近,为了给用户带来更浓厚的节日氛围,小米手机特别推出了龙年春节限定水印功能。这一功能现已上线,支持多款热销机型,让用户在春节期间拍摄的照片更具特色。据了解,想要体验这一新功能,小米手机用户需要先在小米应用商店更新“小米相册-编辑”应用。具体版本要求如下:小米14系列用户需升级至v1.5.3.5版本,RedmiK70系列用户需升级至v1.6.3.2版本。站长网2024-02-05 14:15:290000两周用户增长近百万,挺进美国社交应用榜Top5,这款反AI产品火了
在AI产品竞争白热化之际,一款反AI应用却逆势走红。今年6月,一个名为Cara的图片社区仅用了两周时间,就将用户基数从四万增长至近百万,一跃成为美国社交应用榜Top5,超过了X(前为“推特”)、Reddit、Discord、Linkedln和Messenger,出尽风头。站长网2024-07-04 17:13:150000揭秘快手可灵背后的「关键7人」
国内风头最盛的AI视频团队是哪家?毫无疑问,快手可灵。发布一个月,体验用户超30万,生成700万条短视频,开放网页Web端。哪怕这样,可灵还是一号难求,想上手体验的急得嗷嗷的。而比可灵本身更神秘、更令人好奇的,是缔造出这款中国版Sora的背后团队。量子位全网搜索,根据公开资料,发现了可灵团队来自清华、中科大、港科大、浙大、港中文、上海交大、南京大学等的“关键七人”。站长网2024-07-15 09:19:44000030天涨粉775W,但@k总 “带不动货”
“家人们又破记录了,28万人卖一单啦,加油!”热闹的抖音直播间里,说出这句话的@k总显得凄凉又好笑。事实上,这已经不是@k总第一次在直播间取得这样的“另类成绩”,在此之前其直播间“10万人卖8单”“30万人卖5单”的战绩广为流传,让不少吃瓜网友顺藤摸瓜地走进他的直播间要一起“看笑话”。@k总直播名场面抖音截图站长网2024-09-12 02:31:470000