开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨
【新智元导读】人工智能是否早已达到顶峰,正在变得越来越愚蠢?
生成式AI(GenAI),尤其是以OpenAI的ChatGPT为代表,人们发现,这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。
AI似乎正在变得越来越笨。
这种声音逐渐出现在各个社交网络的平台上,并有许多拥趸。
在OpenAI开发者论坛上,有用户发帖表示:自从去年最新版本的GPT发布后,模型的准确性就显著下降了。
同样的,一位ChatGPT的用户在今年6月写道,「经历了这么多的AI炒作之后,这些模型如今的表现让我非常失望。」
Steven Vaughan-Nichols是一位自由撰稿人和技术分析师,在多家科技媒体中担任高级特约编辑。他拥有自己的个人博客,在X上拥有数万名订阅者。

今年8月下旬,史蒂文在《Computerworld》的一篇言辞激烈的评论文章《I’ve got the genAI blues》中表示:
所有主要的公众可访问的AI模型,像ChatGPT和Claude这样的品牌旗舰产品——其性能都不如以前的版本。
文章地址:https://www.computerworld.com/article/3488589/ive-got-the-genai-blues.html
他在文章中写道,「这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。」
「如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。」
以下是这篇评论文章的内容。
I’ve got the genAI blues
ChatGPT之类的工具远没有你想象的那么好,而且随着时间的推移,它们的表现越来越糟。
我也希望生成式AI真的有用,但事实并非如此。我一直在不断尝试使用各种AI——如ChatGPT、Meta AI以及Gemini等。
这些模型在你不太了解相关领域的情况时,看起来似乎是有用的,它们生成的回答也很合理。
但只要你仔细考察一番,就会发现这些答案是错误的。
如果你对内容的需求仅在高中水平,模型生成的答案还算过得去。但当你需要深入挖掘或研究某个主题时,那就另当别论了。
以我日常的工作内容为例,在Linux和开源软件等主题上,我比一般的大语言模型(LLM)了解得更深入。
在我使用生成式AI对这些主题进行研究时,AI能给出的回答乍一眼看上去可能不错,但你越深入的去讨论一些细节时,它能给出的信息就越贫乏。
这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。
如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。
这并非仅是我一个人的看法。
《商业周刊》报道,许多GPT-4的用户发现它变得越来越「懒」和「愚蠢」。
其他人也对此表示认同。
正如最近在Reddit上的用户所说的那样,「现在ChatGPT3和4的效果远不如我一年前订阅专业版时那么有效和有帮助。」
在我看来,即使是最好的生成式AI聊天机器人Perplexity也在走下坡路。
以前我喜欢Perplexity的一个原因是它会为其观点提供来源。在我把它看作是一个超级增强的搜索引擎时,这个功能很有用。
然而,最近它的表现也越来越不稳定,我再也无法指望它能够准确地给出它是在哪里找到、并重新整合出的这些信息。
为什么会这样?
虽然我并不是AI开发者,但我密切关注这个领域很久了。
以下是我看到的导致模型开始失效至少两个主要原因:
首先是用于创建主要大语言模型的内容质量问题。
许多模型的训练集中包含了来自诸如Twitter、Reddit以及4Chan等「优质」网站的数据。
正如谷歌在今年早些时候发布的AI概述所显示的那样,采用这些数据集对AI进行训练的结果可能会非常糟糕。
《麻省理工科技评论》同样指出,现在的AI会生成一些质量极差的答案。
如建议用户「往披萨上加胶水」或「每天至少吃一块小石头」,以及「前美国总统安德鲁·约翰逊在1947年至2012年间获得了大学学位,尽管他于1875年去世。」
这类回答都是些无伤大雅的蠢例子,但如果你需要一个正确答案,那就完全是另一回事了。
以一位律师为例,他的法律文件中包含了由AI虚构的案例信息,法官们发现这一事实后并不会被逗笑。
如果你只是想用生成式AI闲聊(这似乎是ChatGPT最流行的用途之一),那么准确性可能对你并不重要。
但对于我,以及所有希望将AI用于商业的人来说,正确答案才是最重要的。
随着生成式AI巨头继续寻找更多数据,这个问题只会变得更糟。
来自Epoch AI的一项研究发现,我们最早将在2026年耗尽高质量数据。
这就引出了第二个问题。
如今,生成式AI生成的内容正在取代专家级人类内容。
结果不仅仅是劣质数据排挤了优质数据,情况还要更为糟糕:
《自然(Nature)》的最近的一篇论文发现,「不加区分地从其他模型生成的数据中学习会导致‘模型崩溃’。这是一种退化过程,随着时间的推移,即使分布没有随时间变化,模型也会忘记真正的底层数据分布。」
我愿将其称为「垃圾进,垃圾出(Garbage In, Garbage Out)」。
但由于我看不到公司会停止使用生成式AI以更低的成本来生成文档,因此未来充斥在互联网中的内容质量只会继续下降。
不管你信不信,就质量而言,我们可能已经处于人工智能的顶峰。
这难道不是一个可怕的想法吗?
当然,我不是一个极端的AI反对者。
基于专用大语言模型的特定用途的生成式AI聊天机器人,在作为排查程序故障或发现潜在癌症的工具时,已经非常有用。
其他的一些用途中,如在线游戏中由AI驱动的非玩家角色,将提高游戏体验,而像ElliQ这样的AI朋友可以帮助很多孤独的人。
但作为大多数公司热衷的替代知识型员工的方式,还是算了吧。
除了CEO——他们倒是可以被AI聊天机器人取代。
我怀疑很多人不会注意到AI CEO与人类CEO的区别——除了它会为公司节省一大笔钱。
生成式AI的未来
这不应该是事情发展的方向。
通常来说,新的版本软件应该比它们所取代的版本更好。
但由于生成式AI需要通过大量数据进行训练,而随着人类世界的高质量内容日益枯竭、互联网越来越多地充斥着AI生成的劣质内容,模型未来的性能表现将会成为一个越来越严重的问题。
当然,我们也有可能会重新发现由人类完成的那些极其珍贵且不可替代的工作的价值。
但最好也别对此抱有太大的希望。
参考资料:
https://futurism.com/the-byte/ai-dumber
百度地图上线「道路积水阻断」等功能
百度地图宣布联合各地交警实时上线「道路积水阻断」等权威交通信息。如必须出行可按照地图提示绕行躲避积水险情路段。如发现积水点可以在地图上报百度地图首页点击「反馈」-「路况上报」。如遇到困境,打开百度地图灾区用户可以在地图首页找到「求救入口」,非灾区用户可搜索如「门头沟暴雨」查看暴雨实时信息。站长网2023-08-01 08:45:420000ViralKit:一款AI驱动的竞赛、送礼和抽奖工具
ViralKit是一款由人工智能驱动的竞赛和赠品工具,旨在帮助用户提高社交媒体参与度,增加关注者、点赞、订阅者、客户和销量。无论您是内容创作者,社交媒体经理,小企业主还是机构和自由职业者,ViralKit都能够满足您的需求,将您的社交媒体影响力推向新的高度。地址:https://viralkit.io/主要功能:站长网2023-11-06 16:45:410000独家:那个创下小程序100亿销售记录的团队再创业了
在将旅购的私域收入做到一年超过100亿人民币时,创始团队想着离开再创业。腾讯公开数据中,私域一年超过100亿营收的公司截止2022年才不过5家。作为2018年小程序时代的创业团队,能在2022年实现百亿销售额,成为5家之一,是一个巨大、了不起的成就。0000直播行业离不开头部主播
头部主播依然抢手最近电商行业最受关注的,莫过于董宇辉事件。12月17日,随着“东方小孙”孙东旭被免去CEO一职,董宇辉成为东方甄选高级合伙人,并出任新东方文旅集团副总裁,这场围绕董宇辉和东方甄选矛盾的闹剧画上了句号。这也意味着,此前网上流传的东方甄选“去董宇辉化”计划宣告失败。0000三年“掘金”路,微短剧的风吹向哪了?
2020年底至今,微短剧日益受到观众青睐,逐渐成为了各大内容平台的风口。从2018年的初露锋芒到2021年的快速增长,短剧的内容形式百花齐放,创作者与机构不断挖掘热门题材,为用户带来了优秀的内容体验。随着市场发展和用户圈层的细分,短剧领域逐渐走上了精品化道路。画面质量不断提高,内容创作者不断创新设计反转,通过优质内容让短剧行业蓬勃发展,满足了用户及内容市场的需求。站长网2023-08-02 10:35:320000