开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨
【新智元导读】人工智能是否早已达到顶峰,正在变得越来越愚蠢?
生成式AI(GenAI),尤其是以OpenAI的ChatGPT为代表,人们发现,这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。
AI似乎正在变得越来越笨。
这种声音逐渐出现在各个社交网络的平台上,并有许多拥趸。
在OpenAI开发者论坛上,有用户发帖表示:自从去年最新版本的GPT发布后,模型的准确性就显著下降了。
同样的,一位ChatGPT的用户在今年6月写道,「经历了这么多的AI炒作之后,这些模型如今的表现让我非常失望。」
Steven Vaughan-Nichols是一位自由撰稿人和技术分析师,在多家科技媒体中担任高级特约编辑。他拥有自己的个人博客,在X上拥有数万名订阅者。
今年8月下旬,史蒂文在《Computerworld》的一篇言辞激烈的评论文章《I’ve got the genAI blues》中表示:
所有主要的公众可访问的AI模型,像ChatGPT和Claude这样的品牌旗舰产品——其性能都不如以前的版本。
文章地址:https://www.computerworld.com/article/3488589/ive-got-the-genai-blues.html
他在文章中写道,「这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。」
「如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。」
以下是这篇评论文章的内容。
I’ve got the genAI blues
ChatGPT之类的工具远没有你想象的那么好,而且随着时间的推移,它们的表现越来越糟。
我也希望生成式AI真的有用,但事实并非如此。我一直在不断尝试使用各种AI——如ChatGPT、Meta AI以及Gemini等。
这些模型在你不太了解相关领域的情况时,看起来似乎是有用的,它们生成的回答也很合理。
但只要你仔细考察一番,就会发现这些答案是错误的。
如果你对内容的需求仅在高中水平,模型生成的答案还算过得去。但当你需要深入挖掘或研究某个主题时,那就另当别论了。
以我日常的工作内容为例,在Linux和开源软件等主题上,我比一般的大语言模型(LLM)了解得更深入。
在我使用生成式AI对这些主题进行研究时,AI能给出的回答乍一眼看上去可能不错,但你越深入的去讨论一些细节时,它能给出的信息就越贫乏。
这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。
如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。
这并非仅是我一个人的看法。
《商业周刊》报道,许多GPT-4的用户发现它变得越来越「懒」和「愚蠢」。
其他人也对此表示认同。
正如最近在Reddit上的用户所说的那样,「现在ChatGPT3和4的效果远不如我一年前订阅专业版时那么有效和有帮助。」
在我看来,即使是最好的生成式AI聊天机器人Perplexity也在走下坡路。
以前我喜欢Perplexity的一个原因是它会为其观点提供来源。在我把它看作是一个超级增强的搜索引擎时,这个功能很有用。
然而,最近它的表现也越来越不稳定,我再也无法指望它能够准确地给出它是在哪里找到、并重新整合出的这些信息。
为什么会这样?
虽然我并不是AI开发者,但我密切关注这个领域很久了。
以下是我看到的导致模型开始失效至少两个主要原因:
首先是用于创建主要大语言模型的内容质量问题。
许多模型的训练集中包含了来自诸如Twitter、Reddit以及4Chan等「优质」网站的数据。
正如谷歌在今年早些时候发布的AI概述所显示的那样,采用这些数据集对AI进行训练的结果可能会非常糟糕。
《麻省理工科技评论》同样指出,现在的AI会生成一些质量极差的答案。
如建议用户「往披萨上加胶水」或「每天至少吃一块小石头」,以及「前美国总统安德鲁·约翰逊在1947年至2012年间获得了大学学位,尽管他于1875年去世。」
这类回答都是些无伤大雅的蠢例子,但如果你需要一个正确答案,那就完全是另一回事了。
以一位律师为例,他的法律文件中包含了由AI虚构的案例信息,法官们发现这一事实后并不会被逗笑。
如果你只是想用生成式AI闲聊(这似乎是ChatGPT最流行的用途之一),那么准确性可能对你并不重要。
但对于我,以及所有希望将AI用于商业的人来说,正确答案才是最重要的。
随着生成式AI巨头继续寻找更多数据,这个问题只会变得更糟。
来自Epoch AI的一项研究发现,我们最早将在2026年耗尽高质量数据。
这就引出了第二个问题。
如今,生成式AI生成的内容正在取代专家级人类内容。
结果不仅仅是劣质数据排挤了优质数据,情况还要更为糟糕:
《自然(Nature)》的最近的一篇论文发现,「不加区分地从其他模型生成的数据中学习会导致‘模型崩溃’。这是一种退化过程,随着时间的推移,即使分布没有随时间变化,模型也会忘记真正的底层数据分布。」
我愿将其称为「垃圾进,垃圾出(Garbage In, Garbage Out)」。
但由于我看不到公司会停止使用生成式AI以更低的成本来生成文档,因此未来充斥在互联网中的内容质量只会继续下降。
不管你信不信,就质量而言,我们可能已经处于人工智能的顶峰。
这难道不是一个可怕的想法吗?
当然,我不是一个极端的AI反对者。
基于专用大语言模型的特定用途的生成式AI聊天机器人,在作为排查程序故障或发现潜在癌症的工具时,已经非常有用。
其他的一些用途中,如在线游戏中由AI驱动的非玩家角色,将提高游戏体验,而像ElliQ这样的AI朋友可以帮助很多孤独的人。
但作为大多数公司热衷的替代知识型员工的方式,还是算了吧。
除了CEO——他们倒是可以被AI聊天机器人取代。
我怀疑很多人不会注意到AI CEO与人类CEO的区别——除了它会为公司节省一大笔钱。
生成式AI的未来
这不应该是事情发展的方向。
通常来说,新的版本软件应该比它们所取代的版本更好。
但由于生成式AI需要通过大量数据进行训练,而随着人类世界的高质量内容日益枯竭、互联网越来越多地充斥着AI生成的劣质内容,模型未来的性能表现将会成为一个越来越严重的问题。
当然,我们也有可能会重新发现由人类完成的那些极其珍贵且不可替代的工作的价值。
但最好也别对此抱有太大的希望。
参考资料:
https://futurism.com/the-byte/ai-dumber
抖音博主用AI重制《罗刹海市》MV 一镜到底看呆30万网友
刀郎的新歌《罗刹海市》引起了很多网友的关注。这首歌的名字和部分歌词来自蒲松龄的小说《罗刹海市》。7月26日,一个抖音博主将歌词转化为提示词,并使用AI绘画工具Midjourney生成了一幅《罗刹海市》的画面。上图由Midjourney生成站长网2023-08-02 09:39:020002快手:打击“夏粮收割”摆拍、扎堆麦地直播割麦等蹭热度行为
快手发布《关于严厉打击蹭热点行为的公告》称,平台发现有媒体报道部分网红扎堆蹭夏粮收割热度的情况。快手乐见展示传播中国农民辛劳朴实的一面,但拒绝毫无底线地蹭热度行为。为切实履行平台主体责任,坚决抵制蹭热炒作、恶意造谣传谣等情况在快手平台发生,平台对此类行为展开了密切巡查,一旦发现此类行为,将从严、从重处置违规账号。本次整治的重点包括1.利用“夏粮收割”进行摆拍,发布不实、谣言信息;站长网2023-06-03 09:19:420000Meta 斥巨资打造明星AI数字人
文章概要:1.Meta计划投资数百万美元,基于名人如SnoopDogg、TomBrady和CharliD'Amelio打造AI角色。2.一位顶级创作者以500万美元签下为期两年的非独占性协议,包括六小时工作时间。3.这些AI角色目前在Instagram、WhatsApp和Messenger上作为文本聊天机器人运行,明年初将具备语音功能。站长网2023-10-07 09:57:520000Vanna:一个便捷的SQL数据库交互工具
Vanna是一个为用户提供更便捷地与SQL数据库交互的工具。它通过允许用户使用自然语言来查询数据库,然后将这些语言转换成SQL语句,从而实现数据库信息的查询和获取。官网地址:https://top.aibase.com/tool/vanna-ai项目地址:https://github.com/vanna-ai/vanna主要功能:站长网2024-01-17 10:26:380003马斯克正式「切脑」,Neuralink内部实验室照片曝光!7年计划22000例手术,全力研发只为对抗超级AI
最近,马斯克传记作者写了一篇Neuralink最新进展的长文。从明年开始,Neuralink将开始为人类植入脑机接口。2024年计划进行11台植入手术,而到2030年,这个数字要增长2000倍,计划为超过22000人植入脑机接口。作者在过去的三年里,曾10次前往Neuralink位于硅谷的工厂及其在奥斯汀的实验室访谈和参观,见证了Neuralink业务的不断发展。站长网2023-11-14 11:58:190000