AI公司面临训练数据枯竭危机 高质量数据将在2026年前耗尽
**划重点:**
1. 🚱 **数据枯竭危机:** AI公司可能在不久的将来面临培训数据枯竭的风险,根据研究,高质量文本培训数据可能在2026年耗尽,而低质量文本和图像数据则可能在2030年至2060年之间枯竭。
2. 🔄 **合成数据风险:** 对于数据饥渴的AI公司来说,使用由AI模型生成的合成数据进行训练可能并非可行的解决方案。研究表明,训练AI模型使用AI生成的内容可能导致模型内在的畸形效应,使输出变得混乱和怪异。
3. 💼 **数据合作伙伴关系:** 面对这一潜在问题,除非出现大规模人类内容农场,否则解决方法可能在于建立数据合作伙伴关系。这意味着拥有丰富高质量数据的公司或机构与AI公司达成协议,交换数据以换取资金。
近期,人工智能(AI)公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。然而,令AI公司感到担忧的是,自然数据是一种有限资源,如果这一资源枯竭,研究人员认为公司可能面临严重考验。

图源备注:图片由AI生成,图片授权服务商Midjourney
澳大利亚麦考瑞大学的信息技术法学教授Rita Matulionyte在《对话》杂志的一篇文章中指出,AI研究人员近一年来一直在敲响数据供应告急的警钟。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。
这对AI公司而言是一个岌岌可危的局面,因为AI系统需要大量数据来运行和改进。随着开发人员不断注入更多数据,AI模型已经取得了巨大的进步。如果数据供应停滞不前,模型和整个行业可能会受到影响。
Matulionyte提出了使用合成数据的可能解决方案,即由AI模型生成的数据用于培训新模型,以缓解对数据的渴望。然而,这可能并非一个可行的解决方案。实际上,使用合成内容可能会完全破坏给定的模型;一些研究表明,将AI模型训练用于AI生成的内容会导致明显的近亲繁殖效应,数据集中缺乏差异性,导致输出混乱而怪异。尽管一些公司已经在尝试使用合成培训集,但这并非保证解决问题的方法。
目前,对于这一潜在问题而言,最实际的解决方案可能是建立数据合作伙伴关系,除非出现大规模的人类内容农场。基本上,拥有丰富且备受追捧的高质量数据的公司或机构与AI公司达成协议,提供数据,很可能是以现金交换的方式。
值得注意的是,大多数用于培训AI系统的数据集实际上是由我们在线创建的互联网抓取数据制成的。因此,数据合作伙伴关系可能是一种不错的选择。然而,随着数据的价值不断提高,有趣的是看看有多少AI公司实际上能够竞争获取数据集,更不用说有多少机构或个人愿意向AI公司提供他们的数据了。
即便如此,也不能保证数据井永远不会枯竭。尽管互联网看似无限,但实际上很少有什么是永无止境的。
Nvidia 和 Mistral AI 的超精确小语言模型适用于笔记本电脑和 PC
Nvidia和MistralAI发布了一款新型的小型语言模型,据称该模型在小体积下依然具有「最先进」的准确性。该模型名为Mistral-NemMo-Minitron8B,是NeMo12B的迷你版本,参数量从120亿缩减到了80亿。站长网2024-08-26 11:31:500000台积电称AI加速器市场今年有望增长 250%
划重点:⭐AI加速器市场预计将增长2.5倍⭐TSMC占据超过80%的AI加速器市场份额⭐除了AI加速器市场,其他半导体市场增长预期相对较低站长网2024-05-27 16:34:040000创纪录!小米通讯公开发行10亿元债券 获5.4倍超额认购
快科技7月24日消息,小米集团副总裁,首席财务官林世伟宣布了小米创造的一个新记录。昨日,小米通讯成功公开发行科技创新高成长产业公司债券,发行规模10亿元,期限3年,主体评级AAA。该债券全场获得5.4倍的超额认购,最终发行的票面利率2.00%,创智能制造行业企业同期限公司债的新低记录。评级AAA反映公司偿还债务的能力很强,基本不受不利经济环境的影响,违约风险极低。站长网2024-07-25 02:36:1400012080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
原本需要一张16万元的80GA100干的活,现在只需要一张不到2万元的24G4090就够了!上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080Ti也能流畅运行70B模型。0000拼多多旗下多多买菜本地生活业务已完全暂停
据《晚点LatePost》报道,2023年12月中旬,拼多多旗下的社区团购业务多多买菜宣布启动本地生活到店业务的招商工作,覆盖餐饮、酒店、景点等多个领域。然而,就在项目即将上线之际,却遭遇了突如其来的变故。原本计划于2024年2月春节后在全国上线的多多买菜本地生活项目,在2023年最后一周被暂停。部分地区的招商人员接到通知,项目已全面暂停。0000