GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题
一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。
加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。
根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。
研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。
研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。
研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。
文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。
在此背景下,研究团队有一个明确的诉求:训练数据的公开。
研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。
此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。
Altman被“优化”后的48小时
投资公司SVAngel创始人、OpenAI投资者RonConway在X上表态,认为此次事件的严重程度甚至不亚于乔布斯被迫离开Apple。当天晚些时候,OpenAI董事会董事兼总裁GregBrockman发推表示自己已经致辞。随后Greg又发推描述了自己被迫出局的大致经过,并在推文描述中表达了对自己和Altman经历的震惊。站长网2023-11-20 09:30:380000微软推出端到端数据和分析平台 Fabric:AI 时代的数据分析
微软对人工智能聊天机器人的巨额投资正在进入数据分析领域。图片来自Microsoft在对OpenAI的130亿美元投资以及将AI技术嵌入Bing搜索引擎和其他产品(如电子邮件、Word和Excel)的早期努力之后,微软正在推出一款名为Copilot的聊天机器人,使用户能够理解存储在企业数据库中的信息。站长网2023-05-24 10:26:040000好奇的心上头!9月13日苹果发布会新品全曝光:iPhone 15系列5999元起、21项重大升级
快科技9月3日消息,苹果官方已经定于北京时间9月13日凌晨1点举办新品发布会,主题为好奇心上头”,届时iPhone15系列将如约登场。据悉,此次发布会和去年一样采用提前录制的形式。当然,苹果依然会邀请媒体到ApplePark现场,提供新品体验区。用户可以通过苹果官方网站,iPhone,iPad,Mac和AppleTV上的电视应用程序观看。站长网2023-09-03 08:43:300000对话妙鸭相机产品负责人:我们是有壁垒的,不做“玩具”和“一波流”产品
今天是妙鸭相机爆火后的第19天。凭借9块9即可生成高质量写真照,妙鸭相机以惊人的速度实现了社交媒体刷屏和破圈传播。虽然近日热度有所下降,但不得不承认其给ToC的AIGC产品带来了不小的启发。妙鸭相机微信指数爆火以来,妙鸭的团队背景、技术原理、用户规模、商业化情况等,引发了诸多议论和猜想,然而妙鸭背后的团队却表现得十分低调神秘。站长网2023-08-07 09:17:210000如何利用自媒体快速提升搜索引擎的排名: 一站式自媒体优化排名运营系统介绍
产品介绍:亮点①:内容自动生成一站式发布自媒体图文发布短视频发布覆盖小红书.百家号.头条.B站.微博.网易.搜狐.公众号亮点②:快速排名最快当天上词、指定关键词上词率达70%百度首页PC端.移动端均有排名亮点③:全网覆盖从移动端到PC端.从搜索引擎到自媒体低成本实现品牌营销产品优势:为什么要做新媒体运营?站长网2023-05-30 15:30:110000