网站可以阻止OpenAI网络爬虫 避免数据用于训练 GPT 模型
本文概要:
1. OpenAI 现允许网站屏蔽其网络爬虫,以防止其抓取网站内容训练 GPT 模型的。
2. 阻止 GPTBot 可能是 OpenAI 允许互联网用户选择不让其数据用于训练其大型语言模型的第一步。
3. 在获取用于训练 AI 的数据方面存在争议,一些网站和作者提出限制 AI 公司使用其内容的要求。
OpenAI 现在允许网站屏蔽其网络爬虫,以帮助网站运营商防止其内容被用于训练 GPT 模型。
具体来说,网站可以通过在其 Robots.txt 文件中明确禁止 GPTBot 爬虫程序的出现,或者阻止其 IP 地址来实现屏蔽。
OpenAI 表示,通过使用 GPTBot 抓取的网页可能会用于改进未来的模型,但也会进行过滤以删除需要付费访问、包含个人身份信息或违反政策的内容来源。
阻止 GPTBot 可能是 OpenAI 允许互联网用户选择不让其数据用于训练大型语言模型的第一步。之前有一些尝试创建标记来排除训练内容的举措,例如去年 DeviantArt 提出的 "NoAI" 标签。然而,阻止 GPTBot 并不会从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。
获取用于 AI 训练的数据已经成为一个越来越具有争议的问题。一些网站,包括 Reddit 和 Twitter,一直在努力限制 AI 公司对用户发布内容的免费使用,同时一些作者和创作人也因涉嫌未经授权使用其作品而提起诉讼。议员们在上个月的几次 AI 监管听证会上也关注了数据隐私和同意问题。
在获取数据方面,OpenAI 并未确认是否通过社交媒体帖子、受版权保护的作品或者互联网的哪些部分来获取数据。
据Axios报道,一些公司,如 Adobe,提出了通过反冒充法律来标记数据为不可用于训练的想法。包括 OpenAI在与白宫签署的协议中同意开发一种水印系统,以让人们知道某个内容是否由 AI 生成,但并未承诺停止使用互联网数据进行训练。
百度推出基于大模型的代码编写助手Comate
据科创板日报报道,百度智能云在成都举行的文心大模型技术交流会上,正式发布了基于大模型打造的新一代编码辅助工具“Comate”代码助手,并已经开放邀测。百度表示,已经在百度内部进行了大量测试,测试结果显示,在“Comate”辅助编写的代码中,近50%的建议代码被开发者采纳。站长网2023-06-07 19:12:170000当“洪水猛兽”走进课堂:在高中,我用游戏教历史
近期,B站出现了一道颇为离谱的风景线。明明长期“势同水火”的教育与电子游戏,却同时出现在了各大校园的课堂上。比如上海大学某高数课上,老师用《原神》给大家讲起了数学。又比如另一位物理老师,守了5年,终于等到了用《塞尔达传说:旷野之息》讲解“小船过河”的机会。站长网2023-04-13 11:00:060002清华唐杰团队新作:一口气生成2万字,大模型开卷长输出
一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。要知道,目前大模型的生成长度普遍在2k以下。这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性降低等。该研究由智谱AI创始人、清华大学教授李涓子和唐杰共同领衔。站长网2024-08-16 08:30:440000影响雷军造车的一本书上热搜:源自《人类群星闪耀时》的一句话
昨日,小米创始人雷军通过社交媒体正式宣布,他将在7月19日晚上7点举行“2024雷军年度演讲”。在微博中,雷军分享了小米造车的起源,他说:“许多人都知道,小米造车的决定源自一个特殊的危机。在这个过程中我们经历了什么,又是如何克服的?回顾这三年多的造车之路,我最深的体会是,面对任何危机,只要我们不退缩,就一定能取得胜利。”站长网2024-07-17 10:04:260001洞洞鞋是这届年轻人的“审丑自由”
时尚总是循环的。对洞洞鞋来说,这个循环的周期是15年。最开始,洞洞鞋只是做给那些在船上活动的人穿的。后来,卡骆驰(Crocs)创始人带着第一款卡骆驰产品Beach在佛罗里达州的劳德代尔堡国际游艇展上登场,卖了两百对。“洞洞鞋”的传奇故事正式开始。2006年,Crocs在美上市,一度成为“当红炸子鸡”,创下纳斯达克鞋类企业首日股价上升最高纪录。洞洞鞋的潮流也一跃而起。站长网2023-07-10 18:31:490000