GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题
一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。
加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。
根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。
研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。
研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。
研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。
文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。
在此背景下,研究团队有一个明确的诉求:训练数据的公开。
研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。
此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。
人工智能新技术现在可以提前几个月预测你的辞职意向
现在公司将能够利用人工智能来防止因关键员工辞职而措手不及。这项新技术使管理者能够在职业动向发生之前预见到它们。招聘公司TalentPropeller的董事总经理SharonDavies表示,人工智能(AI)在员工规划方面可以发挥至关重要的作用。站长网2023-07-31 11:55:100000马斯克的 X正在对他不喜欢的网站故意增加 5 秒钟的开启延迟
由马斯克所拥有并更名为“X”的前Twitter网站近日被曝实施链接延迟,限制用户访问《纽约时报》、Facebook等新闻机构和在线竞争对手的速度,引发了广泛关注和舆论争议。站长网2023-08-17 14:34:510000大模型应用,独立APP和内嵌AI,谁会胜出?
大模型产品,会往什么样的趋势发展?下一个国民级的AI应用长什么样?2023年2月,ChatGPT横空出世,点燃了AINative的概念,让一众创业者和巨头兴奋不已,试图打破传统探索独立APP的新形态,从上而下颠覆应用生态。然而,18个月过去了,我们发现一切并没有想象那么快。站长网2024-08-16 16:35:210000机器人Ameca已经具备视觉能力 类人反应令人惊叹
要点:Ameca是一款拥有视觉能力的类人机器人,具备多模态AI功能,展现了接近人类的情感和反应。Ameca的进化涉及多领域技术,包括语言模型、图像生成、语音识别等,使其在交互和创作方面都有显著提升。Ameca的人性化特质来源于广泛的传感器系统和底层操作系统的支持,使其能够精准模拟人类行为和情感反应。0001必和必拓与微软合作:在世界上最大的铜矿使用 AI 和机器学习提高铜矿回收率
必和必拓公司周二表示,该公司正在与微软公司开展合作,利用人工智能和机器学习技术来改善智利Escondida矿场的铜回收率。该矿场是世界上最大的铜矿。必和必拓首席技术官LauraTyler表示,通过结合新的数字技术能力和新的工作方式,Escondida矿场的团队有望从现有资源中创造更多价值。站长网2023-05-31 09:04:030000