互联网时代下 AI 与人类创造力的角逐:当 AI 向 AI 生成数据学习时「模型崩溃」将引发混乱
在大型语言模型(LLM)越来越多地依赖于 ChatGPT 和其他工具来提高效率的情况下,我们可以预见到未来很大一部分网络内容将由人工智能生成。然而,这可能对大型语言模型的未来构成严重风险,因为目前它们依赖于从网络上抓取的人类生成数据。
剑桥大学、牛津大学、多伦多大学和伦敦帝国理工学院的一组研究人员发表了一篇研究论文,对 LLMs 最终使用人工智能生成数据作为训练数据提出了警告。这篇名为《递归的诅咒:在生成数据上训练会让模型遗忘》的论文描述了一种退化过程,称为「模型崩溃」,在这种过程中,模型与现实脱节,并被自己的输出内容所破坏。
随着人工智能工具的广泛使用,这种情况很可能会发生。广泛使用人工智能将导致人工智能生成的内容被作为大型语言模型的训练数据,从而导致其输出的不准确和失真。
这个问题在大型语言模型、变分自编码器和高斯混合模型中都有观察到,随着时间的推移,它们开始「遗忘真实的基础数据分布」,因为它们所训练的数据变得污染程度很高,不再与真实世界的数据相似。
鉴于模型崩溃的严重风险,研究人员强调了获得原始分布数据的重要性,这些数据通常由人类生成。毕竟,人工智能语言模型旨在与人类进行交互,因此需要与现实保持联系,以正确模拟我们的世界。
为解决这个问题,研究人员提出了几种更智能的大型语言模型训练方法。其中一种方法是「先发优势」,强调保留对原始人工生成数据源的访问权限。
然而,由于很难区分 AI 生成的数据和人类生成的数据,该研究论文明确提出,「社区范围的协调」对于确定数据来源至关重要,以确保涉及 LLM 创建和部署的各方共享所需的信息。
论文补充说,但在人们越来越广泛地使用生成式人工智能和对技术占据岗位的担忧之间,对于人类创作者来说也存在一线希望。
研究论文推测,随着互联网上生成式人工智能数据的增加,人类创造的内容将变得越来越有价值,即使只是作为训练大型语言模型时的无污染数据来源。
中国团队开源大规模高质量图文数据集ShareGPT4V
要点:中国团队开源大规模高质量图文数据集ShareGPT4V,基于GPT4-Vision构建,训练了一个7B模型,在多模态性能上超越同级模型。ShareGPT4V数据集包含120万条图像-文本描述数据,涵盖世界知识、对象属性、空间关系、艺术评价等多方面,超越现有数据集在多样性和信息涵盖度方面。站长网2023-11-29 15:03:090001百度与孚宝智能合作 百度灵医大模型将接入孚宝机器人
近日,百度灵医智惠与浙江孚宝智能科技有限公司签署战略合作协议。双方将发挥各自技术、产品、市场优势,推动医疗康养机器人的技术创新和服务升级,为智慧康养产业注入创新动能。站长网2023-11-30 09:42:200000tldraw发布病毒式应用 使用GPT-V自动生成网页代码
近日,tldraw发布了一款引人注目的病毒式应用程序,为用户提供了一种全新的软件设计体验。这款应用程序允许用户利用类似绘画的界面迅速设计软件,并通过其强大的GPT-V引擎自动生成相应的Web代码。这一创新功能不仅表现出色,生成的代码健壮可靠,而且还支持自然语言指令,为用户提供了更加灵活和便捷的操作方式。站长网2023-11-23 12:10:050001网信办开展“清朗・网络戾气整治”专项行动 严惩“开盒挂人”等违规行为
11月17日,中央网信办决定开展为期一个月的“清朗・网络戾气整治”专项行动,以严惩网络空间中的戾气问题。本次行动将重点围绕社交、短视频、直播等平台,集中整治“开盒挂人”“网络厕所”等7大类问题。0000行业领袖推动 AI 硬件革新,人工智能硬件领域的十大杰出人物
随着图形处理单元(GPU)短缺的持续,各公司及风险投资家正争相购买这些芯片以运行强大的AI模型。Nvidia(英伟达),一家在AI热潮中处于领先地位的芯片巨头,宣布计划将驱动AI革命的GPU产量增加三倍。其他硬件初创公司也在争相开发AI处理器。0000