GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题
一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。
加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。
根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。
研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。
研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。
研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。
文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。
在此背景下,研究团队有一个明确的诉求:训练数据的公开。
研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。
此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。
扫地机器人公司iRobot股价飙升近40%,欧盟或将批准亚马逊收购交易
划重点:①iRobot股价飙升40%,市值达11.56亿美元。②欧盟监管机构或将批准亚马逊对iRobot的收购。③亚马逊曾计划以61美元/股收购iRobot,如今价格调整至51.75美元/股,总价值约14亿美元。站长网2023-11-26 04:32:000000AI眼镜,新一代时尚单品还是“吃灰神器”?
如今提起AI眼镜,人们最先想到的场景是:只要戴上这一副眼镜,无论身处何处,眼前的任何外文都能被实时翻译,并直接显示于镜片上;当然,实时拍照、录制视频、实时导航……大部分你能想到的功能,都能通过一副看似平常的眼镜实现。回想2012年,当被Google称为“登月计划”的GoogleGlass上线发布,却惨遭遇冷,不仅没有大卖,最终还于2015年暂停售卖。0000小鹏汽车阶段性组织调整已完成
今日,小鹏汽车宣布,组织调整已完成。小鹏汽车在2022年度报告中显示,王凤英出任总裁,其他核心高管继续担任原有职位。小鹏汽车表示,“阶段性的组织架构调整已完成,在更精简、更高效运作的组织以及更有竞争力的人才体系下,我们对市场份额的增长和销量的恢复充满信心。”站长网2023-04-12 18:17:380000文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费
“发光的水母从海洋中慢慢升起,”在MorphStudio中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。几分钟后,MorphStudio生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣。站长网2024-01-06 10:04:540000最「卷」的618,9块9和1元购成主角
日历已经撕去一半的618,呈现出不同的变化。淘宝天猫的戴珊,京东的许冉,抖音的魏雯雯和拼多多的阿布这4位女性掌门首次正面交锋,但本应激烈的战场却显得有些静悄悄:在预售阶段迎来了开门红的平台们并没有和往年一样大张旗鼓地宣传耀眼的GMV(平台交易额),社交平台也很少讨论各位超头主播的成绩。站长网2023-06-12 17:13:030000