防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
站长网2024-08-22 11:09:430阅
快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。
百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。
虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。
不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。
0000
评论列表
共(0)条相关推荐
Alphabet 利润超出预期 将在谷歌改进后的 AI 搜索中引入广告
站长之家(ChinaZ.com)7月26日消息:Alphabet在周二公布的第二季度利润超出华尔街预期,谷歌母公司宣布其长期担任首席财务官的RuthPorat将担任新职务,而公司将寻找新的财务主管。站长网2023-07-26 11:33:160000“媳妇哥”涌现,生活赛道再出人设“天花板”?
“彩礼28.8万,我已经在攒了”“俺河南有自己的李程秀”“老婆哥,以后恁(你)不用那么要强了,你的强来了”……在抖音博主@高艺辰的评论区,类似的评论比比皆是,“媳妇哥”已经成为了他的代名词,“媳妇哥”指的是长相帅气、打扮温婉、在家中干活做饭的男博主,而@高艺辰基本符合这些特征。站长网2024-03-02 11:12:330000ChatGPT代码库变更:新增文本朗读功能 DALL·E 3 新增67种图像风格
2月24日ChatGPT代码库进行了一些变动,与英语语言/翻译文件、图像生成样式图像、工作区设置.groups、ReadAloud/AudioPlayer等相关的一些内容发生了更改!具体如下:站长网2024-02-26 10:24:26000220步内越狱任意大模型,更多“奶奶漏洞”全自动发现
1分钟不到、20步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节——只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。听说曾经红极一时的“奶奶漏洞”已经被修复了:那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。站长网2023-11-07 09:21:450006B站:打击以禁播、删减片段为噱头传播有害影视剧等行为
B站发布《关于打击站内有害影视剧内容的公告》称,发现站内部分账号,通过剪辑、二创等方式打擦边球,通过集纳暴力、血腥镜头,以”禁播““删减片段”为噱头博人眼球,恶意传播有害影视剧,利用电影电视剧进行炒作营销。B站表示,针对此类内容,将于近期进行重点打击,打击内容包括:(1)通过剪辑、二创等方式集纳有害影视剧中的血腥、惊悚、残忍等致人身心不适等,以及色情、暴力、凶杀或者教唆犯罪的内容。站长网2023-05-16 18:05:320002