AI公司面临训练数据枯竭危机 高质量数据将在2026年前耗尽
**划重点:**
1. 🚱 **数据枯竭危机:** AI公司可能在不久的将来面临培训数据枯竭的风险,根据研究,高质量文本培训数据可能在2026年耗尽,而低质量文本和图像数据则可能在2030年至2060年之间枯竭。
2. 🔄 **合成数据风险:** 对于数据饥渴的AI公司来说,使用由AI模型生成的合成数据进行训练可能并非可行的解决方案。研究表明,训练AI模型使用AI生成的内容可能导致模型内在的畸形效应,使输出变得混乱和怪异。
3. 💼 **数据合作伙伴关系:** 面对这一潜在问题,除非出现大规模人类内容农场,否则解决方法可能在于建立数据合作伙伴关系。这意味着拥有丰富高质量数据的公司或机构与AI公司达成协议,交换数据以换取资金。
近期,人工智能(AI)公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。然而,令AI公司感到担忧的是,自然数据是一种有限资源,如果这一资源枯竭,研究人员认为公司可能面临严重考验。
图源备注:图片由AI生成,图片授权服务商Midjourney
澳大利亚麦考瑞大学的信息技术法学教授Rita Matulionyte在《对话》杂志的一篇文章中指出,AI研究人员近一年来一直在敲响数据供应告急的警钟。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。
这对AI公司而言是一个岌岌可危的局面,因为AI系统需要大量数据来运行和改进。随着开发人员不断注入更多数据,AI模型已经取得了巨大的进步。如果数据供应停滞不前,模型和整个行业可能会受到影响。
Matulionyte提出了使用合成数据的可能解决方案,即由AI模型生成的数据用于培训新模型,以缓解对数据的渴望。然而,这可能并非一个可行的解决方案。实际上,使用合成内容可能会完全破坏给定的模型;一些研究表明,将AI模型训练用于AI生成的内容会导致明显的近亲繁殖效应,数据集中缺乏差异性,导致输出混乱而怪异。尽管一些公司已经在尝试使用合成培训集,但这并非保证解决问题的方法。
目前,对于这一潜在问题而言,最实际的解决方案可能是建立数据合作伙伴关系,除非出现大规模的人类内容农场。基本上,拥有丰富且备受追捧的高质量数据的公司或机构与AI公司达成协议,提供数据,很可能是以现金交换的方式。
值得注意的是,大多数用于培训AI系统的数据集实际上是由我们在线创建的互联网抓取数据制成的。因此,数据合作伙伴关系可能是一种不错的选择。然而,随着数据的价值不断提高,有趣的是看看有多少AI公司实际上能够竞争获取数据集,更不用说有多少机构或个人愿意向AI公司提供他们的数据了。
即便如此,也不能保证数据井永远不会枯竭。尽管互联网看似无限,但实际上很少有什么是永无止境的。
AI配音技术刷屏!声音克隆+口型同步,这下真的是“全世界都在说中国话”了
没开玩笑,现在的AI技术,能让全世界都说中国话。继“AI孙燕姿”后,最近,有一条视频再次刷新了大众对于AI配音技术的认知。10月19日,B站UP主“johnhuu”发布了一条题为“这才是没有译制片腔调的翻译”的视频。视频一开头,霉霉正在用地道的普通话侃侃而谈。正当我惊讶于“霉霉什么时候中文这么标准了”的时候,才发现这是AI配音的效果。站长网2023-10-24 21:27:220002索尼推出相机内真实性认证技术,应对 AI 合成图像挑战
随着人工智能(AI)图像日益逼真和AI图像创作门槛的降低,鉴别图像真伪变得尤为重要。索尼近日宣布推出一项新技术——相机内真实性认证技术,旨在应对这一挑战。这项技术通过在拍摄时给图像文件添加基于机器的数字签名来解决问题。由于签名在相机内部应用,它消除了在拍摄和传输之间操纵图像的可能性。站长网2023-11-27 11:59:570002复旦MOSS模型:接下来会推出算力更大的MOSS模型
据上证报报道,复旦大学MOSS系统负责人邱锡鹏表示,截至目前,MOSS后台已经收到几百家企业的使用申请,其中多数是中小企业,涵盖传统行业、智能信息服务、金融、医疗、教育等领域。此外,目前,MOSS模型的主要功能是帮助企业以更低的成本将大模型应用在具体领域中。邱锡鹏还透露,复旦将计划推出算力更强、推理能力更强的MOSS模型。站长网2023-06-01 15:54:540001库克称中国之行很棒很享受:相信iPhone会重获中国消费者青睐
快科技5月5日消息,当地时间5月4日9点,苹果CEO蒂姆库克现身2024年度伯克希尔-哈撒韦股东大会现场。他在回应记者问题时表示,非常享受中国之行,很棒!”。当被问及iPhone在中国市场销量下滑等问题时,库克直言苹果会在这个市场重新聚焦,并且让中国消费者重新爱上iPhone。苹果第二财季显示,大中华区营收为163.72亿美元,与去年同期的178.12亿美元相比下降8%。0000英特尔推出新一代 Lunar Lake 芯片,将应用于 AI PC
划重点:⭐英特尔计划在今年第三季度推出LunarLake笔记本处理器,旨在为CopilotPlusPC带来全新的AI体验。⭐LunarLake芯片将采用CPU、集成的Xe2GPU和神经处理单元(NPU),提供比其前身MeteorLake更高的三倍AI性能。站长网2024-05-21 11:29:240000