网站可以阻止OpenAI网络爬虫 避免数据用于训练 GPT 模型
本文概要:
1. OpenAI 现允许网站屏蔽其网络爬虫,以防止其抓取网站内容训练 GPT 模型的。
2. 阻止 GPTBot 可能是 OpenAI 允许互联网用户选择不让其数据用于训练其大型语言模型的第一步。
3. 在获取用于训练 AI 的数据方面存在争议,一些网站和作者提出限制 AI 公司使用其内容的要求。
OpenAI 现在允许网站屏蔽其网络爬虫,以帮助网站运营商防止其内容被用于训练 GPT 模型。
具体来说,网站可以通过在其 Robots.txt 文件中明确禁止 GPTBot 爬虫程序的出现,或者阻止其 IP 地址来实现屏蔽。
OpenAI 表示,通过使用 GPTBot 抓取的网页可能会用于改进未来的模型,但也会进行过滤以删除需要付费访问、包含个人身份信息或违反政策的内容来源。

阻止 GPTBot 可能是 OpenAI 允许互联网用户选择不让其数据用于训练大型语言模型的第一步。之前有一些尝试创建标记来排除训练内容的举措,例如去年 DeviantArt 提出的 "NoAI" 标签。然而,阻止 GPTBot 并不会从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。
获取用于 AI 训练的数据已经成为一个越来越具有争议的问题。一些网站,包括 Reddit 和 Twitter,一直在努力限制 AI 公司对用户发布内容的免费使用,同时一些作者和创作人也因涉嫌未经授权使用其作品而提起诉讼。议员们在上个月的几次 AI 监管听证会上也关注了数据隐私和同意问题。
在获取数据方面,OpenAI 并未确认是否通过社交媒体帖子、受版权保护的作品或者互联网的哪些部分来获取数据。
据Axios报道,一些公司,如 Adobe,提出了通过反冒充法律来标记数据为不可用于训练的想法。包括 OpenAI在与白宫签署的协议中同意开发一种水印系统,以让人们知道某个内容是否由 AI 生成,但并未承诺停止使用互联网数据进行训练。
DALL-E将推图片编辑功能 生成图像可局部重绘
DALL-E即将推出图片的编辑功能,类似于局部重绘。这意味着用户可以通过画笔涂抹指定区域,然后对该区域进行重绘。这一功能的推出将为用户提供更多的创作可能性,让他们能够更加灵活地编辑和调整图像。产品入口:https://top.aibase.com/tool/dalle-3站长网2024-03-26 17:15:430000微软推大模型整合性工具库PromptBench
微软最近推出了一个专门用于评估大语言模型的整合性工具库,名为PromptBench。该工具库提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击等,以支持研究人员从不同方面对LLMs进行评估和分析。项目地址:https://github.com/microsoft/promptbench论文地址:https://arxiv.org/abs/2312.07910站长网2023-12-27 16:53:260000人工智能被建议在放射治疗中作为辅助使用
在英格兰接受放射治疗的患者很可能在其治疗的一部分中使用人工智能辅助,因为英国国家卫生与护理卓越研究所(Nice)首次推荐将其用于帮助英国国民保健服务(NHS)的临床医生。英国国家卫生与护理卓越研究所(Nice)的初步指南已批准了9项人工智能技术,用于肺部、前列腺和结直肠癌的外部束放射治疗,该机构认为这一举措可以节省放射技师数十万小时的工作时间,并有助于缓解放射治疗部门的“严重压力”。站长网2023-08-11 16:47:130000「智世机器人」获数千万元天使轮融资
上海智世机器人有限公司是一家提供智能仓储解决方案的公司,最近完成了数千万元的天使轮融资。本轮融资由联创永宣独家投资,沧澜资本担任财务顾问,本轮资金将主要用于产品研发、市场拓展、以及团队扩充。站长网2023-07-20 16:18:000000字节参战!火山引擎明确不做大模型 但已服务国内七成大模型厂商
“火山引擎自己是不做大模型的,我们首先服务好国内做大模型的厂商,等他们把大模型做好之后,我们再一起合作开展对外的服务。”火山引擎总裁谭待向TechWeb等表示。随着ChatGPT的爆火,国内人工智能领域也风起云涌,互联网科技公司纷纷开启大模型军备竞赛。百度、阿里、360等大厂,以及MiniMax、智谱AI等创业公司,都已相继推出自己的大模型产品,与此同时云市场也在加速变革。站长网2023-04-19 21:05:320000