AI公司面临训练数据枯竭危机 高质量数据将在2026年前耗尽
**划重点:**
1. 🚱 **数据枯竭危机:** AI公司可能在不久的将来面临培训数据枯竭的风险,根据研究,高质量文本培训数据可能在2026年耗尽,而低质量文本和图像数据则可能在2030年至2060年之间枯竭。
2. 🔄 **合成数据风险:** 对于数据饥渴的AI公司来说,使用由AI模型生成的合成数据进行训练可能并非可行的解决方案。研究表明,训练AI模型使用AI生成的内容可能导致模型内在的畸形效应,使输出变得混乱和怪异。
3. 💼 **数据合作伙伴关系:** 面对这一潜在问题,除非出现大规模人类内容农场,否则解决方法可能在于建立数据合作伙伴关系。这意味着拥有丰富高质量数据的公司或机构与AI公司达成协议,交换数据以换取资金。
近期,人工智能(AI)公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。然而,令AI公司感到担忧的是,自然数据是一种有限资源,如果这一资源枯竭,研究人员认为公司可能面临严重考验。
图源备注:图片由AI生成,图片授权服务商Midjourney
澳大利亚麦考瑞大学的信息技术法学教授Rita Matulionyte在《对话》杂志的一篇文章中指出,AI研究人员近一年来一直在敲响数据供应告急的警钟。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。
这对AI公司而言是一个岌岌可危的局面,因为AI系统需要大量数据来运行和改进。随着开发人员不断注入更多数据,AI模型已经取得了巨大的进步。如果数据供应停滞不前,模型和整个行业可能会受到影响。
Matulionyte提出了使用合成数据的可能解决方案,即由AI模型生成的数据用于培训新模型,以缓解对数据的渴望。然而,这可能并非一个可行的解决方案。实际上,使用合成内容可能会完全破坏给定的模型;一些研究表明,将AI模型训练用于AI生成的内容会导致明显的近亲繁殖效应,数据集中缺乏差异性,导致输出混乱而怪异。尽管一些公司已经在尝试使用合成培训集,但这并非保证解决问题的方法。
目前,对于这一潜在问题而言,最实际的解决方案可能是建立数据合作伙伴关系,除非出现大规模的人类内容农场。基本上,拥有丰富且备受追捧的高质量数据的公司或机构与AI公司达成协议,提供数据,很可能是以现金交换的方式。
值得注意的是,大多数用于培训AI系统的数据集实际上是由我们在线创建的互联网抓取数据制成的。因此,数据合作伙伴关系可能是一种不错的选择。然而,随着数据的价值不断提高,有趣的是看看有多少AI公司实际上能够竞争获取数据集,更不用说有多少机构或个人愿意向AI公司提供他们的数据了。
即便如此,也不能保证数据井永远不会枯竭。尽管互联网看似无限,但实际上很少有什么是永无止境的。
OpenAI CEO:构建巨型 AI 模型时代已经结束
近年来,OpenAI在处理语言方面取得了一系列令人印象深刻的进步,方法是将现有的机器学习算法扩大到以前无法想象的规模。不过,OpenAICEOSamAltman最近表示,构建巨型AI模型的时代已经结束,未来的进一步进展不会来自于更大的模型。Altman的声明表明,在开发和部署新AI算法的竞赛中出现了意想不到的转折。站长网2023-04-18 10:53:300000称抖音电商珠宝退货率高达90% 一自媒体被抖音起诉
据上游新闻”报道,日前,抖音电商诉自媒体信号财经”名誉权侵权一案,被北京互联网法院正式受理。抖音电商诉请法院,判令被告立即删除侵权文章、刊登道歉声明,并赔偿抖音电商经济损失50万元。报道称,2023年7月14日,北京一点网聚科技有限公司旗下微信公众号信号财经”发布了一篇名为《缩水1万亿!珠宝商退货率90%,抖音正在杀死”商家》的文章。0004B站将在双11期间推出“双11”板块
据澎湃新闻报道,B站与阿里、京东、拼多多等电商平台达成了深度合作,将在双11期间推出“双11”板块,增加商品展示并支持跳转到天猫页面购买。B站手机APP底部的原会员购入口将暂时更名为“双11”。阿里方面,B站将联合天猫展开双11整合营销合作,并依托“星火计划”和“U选计划”对品牌和商家进行平台级流量补贴;京东方面,B站将上线数据生态共建项目“京红计划”,提升品牌与商家在B站的获客与转化效率;站长网2023-10-19 14:59:310000联合国邀请Google、微软等公司合作探讨人工智能风险
🔍划重点:1.联合国宣布成立一个由39名成员组成的咨询机构,旨在引导全球解决人工智能治理问题。2.咨询机构的成员包括来自OpenAI、微软、索尼和谷歌等大型科技公司的高管,以及政府官员和学者。3.该机构的首要任务是建立全球风险和挑战的共识,帮助利用人工智能实现可持续发展目标,并加强国际合作以治理这一新技术。站长网2023-11-01 10:23:180000IDC:2027 年生成式 AI 支出将达到 1430 亿美元
站长之家(ChinaZ.com)10月17日消息:现在几乎每家大公司都在寻找方法将人工智能纳入他们的业务计划,投资于构建或采用生成式人工智能模型来执行特定任务。国际数据公司(IDC)的一份新报告预测,这种支出只会增加。IDC预测,到2027年,用于生成式人工智能解决方案的支出,包括软件、相关基础设施硬件以及实施生成式人工智能所需的IT/业务服务,将达到1430亿美元。站长网2023-10-18 11:43:060000