研究警告:到2026年,AI训练数据可能告急
划重点:
1. 高质量数据对AI至关重要:强大、准确和高质量的AI算法需要大量高质量的数据来进行训练。
2. AI数据可能告急:研究人员预测,如果当前的AI训练趋势继续下去,高质量文本数据可能在2026年之前告急,而低质量的语言数据和图像数据也将在未来告急。
3. 解决数据短缺问题的方法:为了解决数据短缺问题,AI开发人员可以改进算法,更有效地利用已有数据。此外,他们可以使用AI生成合成数据来训练系统,以适应特定的AI模型。
随着人工智能(AI)达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。
为了训练强大、准确和高质量的AI算法,我们需要大量数据。例如,ChatGPT是基于570千兆字节的文本数据(大约3000亿字)进行训练的。类似地,stable diffusion算法(驱动许多AI图像生成应用,如DALL-E、Lensa和Midjourney)是基于包含58亿图像-文本对的LIAON-5B数据集进行训练的。如果算法的训练数据不足,将会产生不准确或低质量的输出。因此,训练数据的质量同样重要。低质量数据,如社交媒体帖子或模糊照片,容易获取,但不足以训练高性能的AI模型。
图源备注:图片由AI生成,图片授权服务商Midjourney
AI行业一直在不断扩大数据集的规模,这就是为什么我们现在拥有高性能模型,如ChatGPT或DALL-E3。与此同时,研究显示,用于训练AI的在线数据库增长速度远远慢于AI所需的数据集。在去年发表的一篇论文中,一组研究人员预测,如果当前的AI训练趋势继续下去,我们将在2026年之前用尽高质量文本数据,而低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据将在2030年至2060年之间告急。尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统,从而降低数据需求,但数据短缺问题仍需解决。
如何解决数据短缺问题?
虽然上述问题可能让一些AI爱好者感到担忧,但情况可能没有看上去那么糟糕。关于AI模型未来的发展,还有许多未知因素,但有一些方法可以解决数据短缺的风险。一种机会是让AI开发人员改进算法,使其更有效地利用已有数据。未来几年内,他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统,这也将有助于减少AI的碳足迹。
另一种选择是使用AI来生成合成数据以训练系统。换句话说,开发人员可以简单地生成他们需要的数据,以适应其特定的AI模型。已经有几个项目正在使用合成内容,通常是从数据生成服务中获取的,这将在未来变得更加普遍。
开发人员还在寻找在线空间以外的内容,如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本,如果以数字形式提供,它们可能为AI项目提供新的数据来源。例如,新闻集团(News Corp)是全球最大的新闻内容所有者之一,最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费,而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型,一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。
安卓卖了个寂寞!苹果赚钱能力太强:拿走全球智能手机85%利润
快科技8月10日消息,CounterpointResearch最新研报数据显示,2023年Q2苹果公司智能手机营收和营业利润创季度记录。数据显示,2023年第二季度,全球智能手机营收年同比下降8%,环比下降15%,远低于900亿美元。同期,全球智能手机营业利润降至130亿美元以下,年同比下降3%,环比下降27%。站长网2023-08-10 20:37:150000特斯拉 2023年Q3财报:大举投资人工智能,保持持有比特币
划重点:特斯拉在Q32023继续保留其大额比特币投资,价值1.84亿美元,超过了2021年首次购买的15亿美元比特币的一部分。公司大举投资人工智能项目,计算能力翻倍增加,专注于人工智能的发展,而非编码软件。尽管财报显示总营收增长9%,但营收和利润低于市场预期,特斯拉的股价下跌。站长网2023-10-19 11:18:020000谷歌承诺为其生成式AI产品用户承担版权方面的法律风险
划重点:1.谷歌将保护使用其生成式AI产品的用户,以防其因侵犯版权而被起诉。2.具体提到了七个产品,包括DuetAI、VertexAI等,谷歌将为这些产品的用户提供法律保护。3.谷歌采用双重保障策略,覆盖了培训数据和基础模型产生的结果,以应对可能出现的版权问题。谷歌承诺将为使用其生成式AI产品的用户承担法律风险,以应对版权侵犯的诉讼。站长网2023-10-13 09:59:510000清华芯片新突破登Science,获评“存算一体领域重大进展”!基于类脑架构实现片上快速AI学习
清华最新芯片成果,登上Science!全球首颗全系统集成、支持高效片上学习的忆阻器存算一体芯片,正式问世。它集合了记忆、计算和学习能力。能在片上快速完成不同任务的模型训练。而能耗仅为先进工艺下ASIC的1/35,能效有望提升75倍,同时兼顾保护隐私。这就是由清华大学集成电路学院吴华强教授、高滨副教授团队带来的最新成果。相关话题已经登顶知乎热榜。Science编辑评价其为:站长网2023-10-12 11:23:530000码农编码利器ChatCoder:通过与LLM聊天来细化需求
大模型代码生成能力如何,还得看你的「需求表达」好不好。从通过HumEval中67%测试的GPT-4,到近来各种开源大模型,比如CodeLlama,有望成为码农编码利器。然而,现实中,程序员们不会精炼表达需求,因此误导、限制了LLM生成优秀代码的能力。为了解决大模型代码生成的需求表达问题,北大实验室的研究团队提出了通过与LLM聊天来细化需求的方法——ChatCoder。站长网2023-11-16 14:42:100000